AutoFigure 完全指南：用 AI 自动生成可编辑的学术插图

高质量的学术插图是科研论文里不可或缺的沟通媒介，但手工绘制一张架构图往往要耗费研究者数小时甚至数天。AutoFigure 与其升级版 AutoFigure-Edit 正是为解决这一痛点而生——它们能从论文方法段文本直接生成可编辑的出版级科学插图，并已在 ICLR 2026 上获得认可。

关键链接

AutoFigure 论文（ICLR 2026）：arXiv:2602.03828

AutoFigure-Edit 论文：arXiv:2603.06674

AutoFigure GitHub：ResearAI/AutoFigure

AutoFigure-Edit GitHub：ResearAI/AutoFigure-Edit

在线体验：deepscientist.cc

背景：科学插图的生成困境

在学术领域，架构图、流程图、方法示意图等插图的制作历来是研究效率的瓶颈：

专业壁垒高：需要熟悉 Inkscape、draw.io、Adobe Illustrator 等工具
时间成本大：一张复杂系统架构图可能耗费 4-8 小时
迭代繁琐：调整布局、字体、颜色时需多次手工修改
复现困难：他人风格的图形难以快速模仿

AutoFigure 项目的目标是：将方法文本作为输入，输出可直接投稿的 SVG 格式科学插图，并兼顾结构完整性与美观效果。

AutoFigure：第一代智能体框架

核心定位

AutoFigure（arXiv:2602.03828）是首个用于从长篇科学文本自动生成科学插图的智能体框架，已被 ICLR 2026 录用。其核心贡献体现在两方面：

FigureBench 基准数据集：第一个大规模科学插图生成评测基准
AutoFigure 系统：基于多轮审查-精炼循环的自动生成流水线

FigureBench 数据集

为了系统性评估科学插图生成能力，研究团队构建了 FigureBench，这是迄今规模最大的科学文图对数据集。

来源类型	样本数	平均文本长度（词）	平均组件数
学术论文	3,200	12,732	约 5.3
博客文章	20	4,047	约 5.3
综述论文	40	2,179	约 5.3
教材章节	40	352	约 5.3
合计	3,300	10k+	约 5.3

数据集覆盖论文、博客、综述、教材四种场景，所有文图对均来自真实出版内容，图形复杂度高（平均 5.3 个组件），可在 HuggingFace 上获取：

from datasets import load_dataset
dataset = load_dataset("WestlakeNLP/FigureBench")

工作原理：审查-精炼循环

AutoFigure 的核心机制是一个双智能体审查-精炼循环（Review-Refine Loop）：

描述文本
    ↓
[生成智能体] ——→ 初始 SVG/mxGraph XML
    ↓
[评估智能体] ——→ 质量评分 (0-10) + 具体反馈
    ↓
[精炼循环] ——→若未达到阈值则继续迭代
    ↓
出版级插图

生成智能体：基于方法文本和参考图形，使用 LLM 生成初始草稿（支持 SVG 和 mxGraph XML 两种格式，后者与 draw.io 完全兼容）

评估智能体：对生成图形进行 0-10 评分，识别布局错误、标签缺失、视觉不一致等问题，并给出具体修改建议

精炼循环：持续迭代直到质量评分超过设定阈值（默认 9.0 分），确保输出达到投稿要求

功能特性概览

功能	说明
📝 文本生图	从自然语言描述直接生成图形
📄 论文生图	解析 PDF/Markdown 论文，自动提取方法段并生图
🔄 迭代精炼	双智能体持续优化，直到达到质量阈值
🎨 多格式输出	SVG 矢量图或 mxGraph XML（draw.io 兼容）
💅 美化增强	AI 后处理，生成多个美化变体
🖥️ Web 界面	Next.js 前端，支持生成与在线编辑

AutoFigure-Edit：第二代可编辑系统

技术跃升

AutoFigure-Edit（arXiv:2603.06674，2026 年 3 月发布）是 AutoFigure 的全面升级版，解决了第一代系统在可编辑性、风格可控性和生成效率上的三大瓶颈。

AutoFigure-Edit 已在 HuggingFace Daily Papers 上获得 17 次 upvote，GitHub 上获得 1.9k 星。

核心突破：

全可编辑 SVG 输出：输出结构化矢量图，每个文字、形状、布局均可无损编辑
参考图像风格迁移：上传参考图片，系统自动模仿其视觉风格
内嵌 SVG 编辑器：浏览器内直接编辑，零工具切换成本

四阶段流水线详解

AutoFigure-Edit 的核心是一个四阶段处理流水线，将原始文本转化为精细矢量图：

第 1 阶段：图形生成（figure.png）
    LLM 基于方法文本生成栅格草稿

第 2 阶段：SAM3 分割（sam.png）
    SAM3 分割模型检测并分离图标、文字等区域

第 3 阶段：SVG 模板构建（template.svg）
    系统构建结构化 SVG 骨架，使用标准占位符

第 4 阶段：最终组装（final.svg）
    高质量裁切图标 + 矢量化文字注入模板，完成最终 SVG

为什么选择 SAM3？

SAM3（Segment Anything Model 3）是 Meta 开发的新一代图像分割模型，支持多提示词（如 icon,person,robot,animal）同时检测多类目标，并能自动合并重叠区域，特别适合学术插图中的程式化图标提取。

风格迁移实战

AutoFigure-Edit 支持通过上传参考图像来控制输出风格，系统能够自动模仿参考图的：

配色方案
元素排布风格
图标绘制风格
整体视觉风格

例如，针对同一篇论文（CycleResearcher），使用三种不同的参考风格，可以生成截然不同视觉效果的插图，而内容结构保持一致。

快速上手

方式一：在线体验（最简单）

直接访问 deepscientist.cc，无需安装任何软件，免费向全球学者开放。

方式二：Docker 部署（推荐自托管）

# 1. 克隆 AutoFigure-Edit 仓库
git clone https://github.com/ResearAI/AutoFigure-Edit.git
cd AutoFigure-Edit

# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 文件，至少填写：
# HF_TOKEN=hf_xxxxxxxxxxxxx（HuggingFace Token）
# ROBOFLOW_API_KEY=your_key（可选，用于 SAM3 API 模式）

# 3. 启动服务
docker compose up -d --build

# 4. 验证健康状态
curl http://localhost:8000/healthz
# 预期返回：{"status":"ok"}

打开 http://localhost:8000 即可使用 Web 界面。

国内网络优化配置（在 .env 中添加）：

DOCKER_DNS_1=223.5.5.5
DOCKER_DNS_2=119.29.29.29
BASE_IMAGE=docker.m.daocloud.io/library/python:3.11-slim
PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

方式三：Python SDK（AutoFigure 原版）

git clone https://github.com/ResearAI/AutoFigure.git
cd AutoFigure
pip install -e .
playwright install chromium  # 渲染所需

基本用法——文本生图：

from autofigure import AutoFigureAgent, Config

# 配置 LLM 提供商
config = Config(
    generation_api_key="your-api-key",
    generation_provider="openrouter",  # openrouter / gemini / bianxie
    generation_model="google/gemini-2.5-pro",
)

agent = AutoFigureAgent(config)
result = agent.generate(
    description="展示 Transformer 训练流水线的流程图",
    max_iterations=5,
    output_format="svg",
    topic="paper"  # paper / survey / blog / textbook
)

print(f"✅ 生成完成：{result.svg_path}（评分：{result.final_score}/10）")

从 PDF 论文自动生图：

result = agent.generate_from_paper(
    paper_path="./my_paper.pdf",
    max_iterations=5,
    output_format="svg",
    enable_enhancement=True,  # 开启美化增强
)

if result.success:
    print(f"方法文本摘要：{result.methodology_text[:200]}...")
    print(f"生成图形路径：{result.svg_path}")

生成多个美化变体：

result = agent.generate(
    description="神经网络架构图",
    enable_enhancement=True,
    enhancement_count=3,           # 生成 3 个变体
    art_style="简洁的现代科学风格",
    enhancement_input_type="code2prompt"  # 最高质量模式
)

方式四：AutoFigure-Edit CLI

# 使用 Roboflow API 模式（无需本地安装 SAM3）
export ROBOFLOW_API_KEY="your-roboflow-key"

python autofigure2.py \
  --method_file paper.txt \
  --output_dir outputs/demo \
  --provider bianxie \
  --api_key YOUR_KEY \
  --sam_backend roboflow

Web 界面使用指南

配置页面

在 Web 界面左侧粘贴论文方法段文本，右侧进行如下配置：

参数	说明	推荐值
Provider	LLM 提供商	`openrouter`（最全兼容）
Optimize	SVG 模板精炼迭代次数	`0`（标准使用）
Image Size	图像分辨率（仅 Gemini）	`2K`
Reference Image	风格参考图（可选）	上传目标风格图片
SAM3 Backend	分割模型来源	`roboflow`（免费 API）

画布与编辑器

生成完成后，结果直接加载到内嵌的 SVG-Edit 画布中：

状态日志：左上角显示实时生成进度，右上角查看详细执行日志
工件侧边栏：点击右下角浮动按钮展开工件面板，包含所有中间产物（图标裁切、SVG 模板等）
拖拽组合：可将工件面板中的任意素材拖拽到画布上进行自定义组合

支持的 LLM 提供商

AutoFigure 系列工具均支持以下三类 LLM 接入方式：

提供商	接入端点	说明
OpenRouter	`openrouter.ai/api/v1`	支持 Gemini/Claude 等多种模型
扁鹊（Bianxie）	`api.bianxie.ai/v1`	OpenAI 兼容格式
Google Gemini	`generativelanguage.googleapis.com/v1beta`	官方 Google Gemini API

默认推荐模型：

图像生成：google/gemini-3.1-flash-image-preview
SVG 生成：google/gemini-3.1-pro-preview

如需接入自托管或第三方 OpenAI 兼容端点，使用 --provider openrouter --base_url <your_endpoint> 即可。

SAM3 安装说明

AutoFigure-Edit 依赖 SAM3 进行图标分割，有两种使用方式：

API 模式（无需本地安装）

推荐使用 Roboflow 免费 API：

export ROBOFLOW_API_KEY="your-roboflow-key"

或使用 fal.ai：

export FAL_KEY="your-fal-key"

本地安装

git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
# 注：需要 Python 3.12+、PyTorch 2.7+、CUDA 12.6（GPU 构建）

SAM3 模型权重托管在 HuggingFace (facebook/sam3)，需要先请求访问权限并通过 huggingface-cli login 认证。

两代系统对比

维度	AutoFigure（第一代）	AutoFigure-Edit（第二代）
输出格式	SVG / mxGraph XML	纯 SVG（结构化可编辑）
核心机制	审查-精炼循环	四阶段流水线（含 SAM3 分割）
风格控制	不支持	参考图像风格迁移
在线编辑	外部工具	内嵌 SVG-Edit 画布
图标提取	无	SAM3 精准分割 + 裁切
部署方式	Python SDK / Web	Docker / CLI / Web
论文状态	ICLR 2026 正式录用	arXiv 预印本
GitHub 星数	~900	~1,900

进阶配置参数

AutoFigure-Edit 提供丰富的 CLI 调参空间：

python autofigure2.py \
  --method_file paper.txt \
  --output_dir outputs/demo \
  --provider openrouter \
  --api_key YOUR_KEY \
  --image_model "google/gemini-3.1-flash-image-preview" \
  --svg_model "google/gemini-3.1-pro-preview" \
  --image_size 2K \                    # 1K / 2K / 4K（仅 Gemini）
  --sam_prompt "icon,person,robot" \   # 分割检测目标
  --sam_backend roboflow \             # local / fal / roboflow
  --sam_max_masks 32 \                 # fal.ai 最大掩码数
  --merge_threshold 0.5 \             # 0 表示禁用掩码合并
  --optimize_iterations 0 \           # 模板精炼迭代次数（0=禁用）
  --reference_image_path style.png    # 风格参考图路径（可选）

项目动态

以下为 ResearAI 团队发布的关键进展节点：

2026.01.26：AutoFigure 被 ICLR 2026 正式录用
2026.02.17：AutoFigure-Edit 在线平台上线，对全球学者免费开放
2026.03.11：AutoFigure-Edit 论文发布于 arXiv，登上 HuggingFace Daily Papers
2026.03.24：姐妹项目 DeepScientist v1.5 发布，提供端到端自主科研发现能力

总结与使用建议

AutoFigure 系列工具为学术科研人员提供了一条从文本到图形的自动化路径：

推荐使用场景：

论文投稿前快速生成方法架构图
需要保持与某论文/期刊相近视觉风格的场景
希望在浏览器内直接编辑 SVG 而无需安装专业软件
批量生成多风格变体，从中筛选最优版本

注意事项：

输入文本质量直接影响输出效果，建议使用方法段的完整英文原文
复杂图形建议开启 optimize_iterations 进行多轮精炼
SAM3 API 模式（Roboflow）对于大多数用户是最低摩擦的选择
生成的 SVG 仍需在编辑器中做最终的细节调整

如果你对该项目有疑问，可以通过 GitHub Issues 或论文作者提供的微信群与社区交流。

参考资料

AutoFigure 论文：Minjun Zhu et al., AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations, ICLR 2026. arXiv:2602.03828
AutoFigure-Edit 论文：Zhen Lin et al., AutoFigure-Edit: Generating Editable Scientific Illustration, arXiv 2026. arXiv:2603.06674
FigureBench 数据集：huggingface.co/datasets/WestlakeNLP/FigureBench
DeepScientist 系统：github.com/ResearAI/DeepScientist