高质量的学术插图是科研论文里不可或缺的沟通媒介,但手工绘制一张架构图往往要耗费研究者数小时甚至数天。AutoFigure 与其升级版 AutoFigure-Edit 正是为解决这一痛点而生——它们能从论文方法段文本直接生成可编辑的出版级科学插图,并已在 ICLR 2026 上获得认可。
关键链接
- AutoFigure 论文(ICLR 2026):arXiv:2602.03828
- AutoFigure-Edit 论文:arXiv:2603.06674
- AutoFigure GitHub:ResearAI/AutoFigure
- AutoFigure-Edit GitHub:ResearAI/AutoFigure-Edit
- 在线体验:deepscientist.cc
目录
背景:科学插图的生成困境
在学术领域,架构图、流程图、方法示意图等插图的制作历来是研究效率的瓶颈:
- 专业壁垒高:需要熟悉 Inkscape、draw.io、Adobe Illustrator 等工具
- 时间成本大:一张复杂系统架构图可能耗费 4-8 小时
- 迭代繁琐:调整布局、字体、颜色时需多次手工修改
- 复现困难:他人风格的图形难以快速模仿
AutoFigure 项目的目标是:将方法文本作为输入,输出可直接投稿的 SVG 格式科学插图,并兼顾结构完整性与美观效果。
AutoFigure:第一代智能体框架
核心定位
AutoFigure(arXiv:2602.03828)是首个用于从长篇科学文本自动生成科学插图的智能体框架,已被 ICLR 2026 录用。其核心贡献体现在两方面:
- FigureBench 基准数据集:第一个大规模科学插图生成评测基准
- AutoFigure 系统:基于多轮审查-精炼循环的自动生成流水线
FigureBench 数据集
为了系统性评估科学插图生成能力,研究团队构建了 FigureBench,这是迄今规模最大的科学文图对数据集。
| 来源类型 | 样本数 | 平均文本长度(词) | 平均组件数 |
|---|---|---|---|
| 学术论文 | 3,200 | 12,732 | 约 5.3 |
| 博客文章 | 20 | 4,047 | 约 5.3 |
| 综述论文 | 40 | 2,179 | 约 5.3 |
| 教材章节 | 40 | 352 | 约 5.3 |
| 合计 | 3,300 | 10k+ | 约 5.3 |
数据集覆盖论文、博客、综述、教材四种场景,所有文图对均来自真实出版内容,图形复杂度高(平均 5.3 个组件),可在 HuggingFace 上获取:
from datasets import load_dataset
dataset = load_dataset("WestlakeNLP/FigureBench")
工作原理:审查-精炼循环
AutoFigure 的核心机制是一个双智能体审查-精炼循环(Review-Refine Loop):
描述文本
↓
[生成智能体] ——→ 初始 SVG/mxGraph XML
↓
[评估智能体] ——→ 质量评分 (0-10) + 具体反馈
↓
[精炼循环] ——→若未达到阈值则继续迭代
↓
出版级插图
生成智能体:基于方法文本和参考图形,使用 LLM 生成初始草稿(支持 SVG 和 mxGraph XML 两种格式,后者与 draw.io 完全兼容)
评估智能体:对生成图形进行 0-10 评分,识别布局错误、标签缺失、视觉不一致等问题,并给出具体修改建议
精炼循环:持续迭代直到质量评分超过设定阈值(默认 9.0 分),确保输出达到投稿要求
功能特性概览
| 功能 | 说明 |
|---|---|
| 📝 文本生图 | 从自然语言描述直接生成图形 |
| 📄 论文生图 | 解析 PDF/Markdown 论文,自动提取方法段并生图 |
| 🔄 迭代精炼 | 双智能体持续优化,直到达到质量阈值 |
| 🎨 多格式输出 | SVG 矢量图或 mxGraph XML(draw.io 兼容) |
| 💅 美化增强 | AI 后处理,生成多个美化变体 |
| 🖥️ Web 界面 | Next.js 前端,支持生成与在线编辑 |
AutoFigure-Edit:第二代可编辑系统
技术跃升
AutoFigure-Edit(arXiv:2603.06674,2026 年 3 月发布)是 AutoFigure 的全面升级版,解决了第一代系统在可编辑性、风格可控性和生成效率上的三大瓶颈。
AutoFigure-Edit 已在 HuggingFace Daily Papers 上获得 17 次 upvote,GitHub 上获得 1.9k 星。
核心突破:
- 全可编辑 SVG 输出:输出结构化矢量图,每个文字、形状、布局均可无损编辑
- 参考图像风格迁移:上传参考图片,系统自动模仿其视觉风格
- 内嵌 SVG 编辑器:浏览器内直接编辑,零工具切换成本
四阶段流水线详解
AutoFigure-Edit 的核心是一个四阶段处理流水线,将原始文本转化为精细矢量图:
第 1 阶段:图形生成(figure.png)
LLM 基于方法文本生成栅格草稿
第 2 阶段:SAM3 分割(sam.png)
SAM3 分割模型检测并分离图标、文字等区域
第 3 阶段:SVG 模板构建(template.svg)
系统构建结构化 SVG 骨架,使用标准占位符
第 4 阶段:最终组装(final.svg)
高质量裁切图标 + 矢量化文字注入模板,完成最终 SVG
为什么选择 SAM3?
SAM3(Segment Anything Model 3)是 Meta 开发的新一代图像分割模型,支持多提示词(如 icon,person,robot,animal)同时检测多类目标,并能自动合并重叠区域,特别适合学术插图中的程式化图标提取。
风格迁移实战
AutoFigure-Edit 支持通过上传参考图像来控制输出风格,系统能够自动模仿参考图的:
- 配色方案
- 元素排布风格
- 图标绘制风格
- 整体视觉风格
例如,针对同一篇论文(CycleResearcher),使用三种不同的参考风格,可以生成截然不同视觉效果的插图,而内容结构保持一致。
快速上手
方式一:在线体验(最简单)
直接访问 deepscientist.cc,无需安装任何软件,免费向全球学者开放。
方式二:Docker 部署(推荐自托管)
# 1. 克隆 AutoFigure-Edit 仓库
git clone https://github.com/ResearAI/AutoFigure-Edit.git
cd AutoFigure-Edit
# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 文件,至少填写:
# HF_TOKEN=hf_xxxxxxxxxxxxx(HuggingFace Token)
# ROBOFLOW_API_KEY=your_key(可选,用于 SAM3 API 模式)
# 3. 启动服务
docker compose up -d --build
# 4. 验证健康状态
curl http://localhost:8000/healthz
# 预期返回:{"status":"ok"}
打开 http://localhost:8000 即可使用 Web 界面。
国内网络优化配置(在 .env 中添加):
DOCKER_DNS_1=223.5.5.5
DOCKER_DNS_2=119.29.29.29
BASE_IMAGE=docker.m.daocloud.io/library/python:3.11-slim
PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple
方式三:Python SDK(AutoFigure 原版)
git clone https://github.com/ResearAI/AutoFigure.git
cd AutoFigure
pip install -e .
playwright install chromium # 渲染所需
基本用法——文本生图:
from autofigure import AutoFigureAgent, Config
# 配置 LLM 提供商
config = Config(
generation_api_key="your-api-key",
generation_provider="openrouter", # openrouter / gemini / bianxie
generation_model="google/gemini-2.5-pro",
)
agent = AutoFigureAgent(config)
result = agent.generate(
description="展示 Transformer 训练流水线的流程图",
max_iterations=5,
output_format="svg",
topic="paper" # paper / survey / blog / textbook
)
print(f"✅ 生成完成:{result.svg_path}(评分:{result.final_score}/10)")
从 PDF 论文自动生图:
result = agent.generate_from_paper(
paper_path="./my_paper.pdf",
max_iterations=5,
output_format="svg",
enable_enhancement=True, # 开启美化增强
)
if result.success:
print(f"方法文本摘要:{result.methodology_text[:200]}...")
print(f"生成图形路径:{result.svg_path}")
生成多个美化变体:
result = agent.generate(
description="神经网络架构图",
enable_enhancement=True,
enhancement_count=3, # 生成 3 个变体
art_style="简洁的现代科学风格",
enhancement_input_type="code2prompt" # 最高质量模式
)
方式四:AutoFigure-Edit CLI
# 使用 Roboflow API 模式(无需本地安装 SAM3)
export ROBOFLOW_API_KEY="your-roboflow-key"
python autofigure2.py \
--method_file paper.txt \
--output_dir outputs/demo \
--provider bianxie \
--api_key YOUR_KEY \
--sam_backend roboflow
Web 界面使用指南
配置页面
在 Web 界面左侧粘贴论文方法段文本,右侧进行如下配置:
| 参数 | 说明 | 推荐值 |
|---|---|---|
| Provider | LLM 提供商 | openrouter(最全兼容) |
| Optimize | SVG 模板精炼迭代次数 | 0(标准使用) |
| Image Size | 图像分辨率(仅 Gemini) | 2K |
| Reference Image | 风格参考图(可选) | 上传目标风格图片 |
| SAM3 Backend | 分割模型来源 | roboflow(免费 API) |
画布与编辑器
生成完成后,结果直接加载到内嵌的 SVG-Edit 画布中:
- 状态日志:左上角显示实时生成进度,右上角查看详细执行日志
- 工件侧边栏:点击右下角浮动按钮展开工件面板,包含所有中间产物(图标裁切、SVG 模板等)
- 拖拽组合:可将工件面板中的任意素材拖拽到画布上进行自定义组合
支持的 LLM 提供商
AutoFigure 系列工具均支持以下三类 LLM 接入方式:
| 提供商 | 接入端点 | 说明 |
|---|---|---|
| OpenRouter | openrouter.ai/api/v1 | 支持 Gemini/Claude 等多种模型 |
| 扁鹊(Bianxie) | api.bianxie.ai/v1 | OpenAI 兼容格式 |
| Google Gemini | generativelanguage.googleapis.com/v1beta | 官方 Google Gemini API |
默认推荐模型:
- 图像生成:
google/gemini-3.1-flash-image-preview - SVG 生成:
google/gemini-3.1-pro-preview
如需接入自托管或第三方 OpenAI 兼容端点,使用 --provider openrouter --base_url <your_endpoint> 即可。
SAM3 安装说明
AutoFigure-Edit 依赖 SAM3 进行图标分割,有两种使用方式:
API 模式(无需本地安装)
推荐使用 Roboflow 免费 API:
export ROBOFLOW_API_KEY="your-roboflow-key"
或使用 fal.ai:
export FAL_KEY="your-fal-key"
本地安装
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
# 注:需要 Python 3.12+、PyTorch 2.7+、CUDA 12.6(GPU 构建)
SAM3 模型权重托管在 HuggingFace (facebook/sam3),需要先请求访问权限并通过 huggingface-cli login 认证。
两代系统对比
| 维度 | AutoFigure(第一代) | AutoFigure-Edit(第二代) |
|---|---|---|
| 输出格式 | SVG / mxGraph XML | 纯 SVG(结构化可编辑) |
| 核心机制 | 审查-精炼循环 | 四阶段流水线(含 SAM3 分割) |
| 风格控制 | 不支持 | 参考图像风格迁移 |
| 在线编辑 | 外部工具 | 内嵌 SVG-Edit 画布 |
| 图标提取 | 无 | SAM3 精准分割 + 裁切 |
| 部署方式 | Python SDK / Web | Docker / CLI / Web |
| 论文状态 | ICLR 2026 正式录用 | arXiv 预印本 |
| GitHub 星数 | ~900 | ~1,900 |
进阶配置参数
AutoFigure-Edit 提供丰富的 CLI 调参空间:
python autofigure2.py \
--method_file paper.txt \
--output_dir outputs/demo \
--provider openrouter \
--api_key YOUR_KEY \
--image_model "google/gemini-3.1-flash-image-preview" \
--svg_model "google/gemini-3.1-pro-preview" \
--image_size 2K \ # 1K / 2K / 4K(仅 Gemini)
--sam_prompt "icon,person,robot" \ # 分割检测目标
--sam_backend roboflow \ # local / fal / roboflow
--sam_max_masks 32 \ # fal.ai 最大掩码数
--merge_threshold 0.5 \ # 0 表示禁用掩码合并
--optimize_iterations 0 \ # 模板精炼迭代次数(0=禁用)
--reference_image_path style.png # 风格参考图路径(可选)
项目动态
以下为 ResearAI 团队发布的关键进展节点:
- 2026.01.26:AutoFigure 被 ICLR 2026 正式录用
- 2026.02.17:AutoFigure-Edit 在线平台上线,对全球学者免费开放
- 2026.03.11:AutoFigure-Edit 论文发布于 arXiv,登上 HuggingFace Daily Papers
- 2026.03.24:姐妹项目 DeepScientist v1.5 发布,提供端到端自主科研发现能力
总结与使用建议
AutoFigure 系列工具为学术科研人员提供了一条从文本到图形的自动化路径:
推荐使用场景:
- 论文投稿前快速生成方法架构图
- 需要保持与某论文/期刊相近视觉风格的场景
- 希望在浏览器内直接编辑 SVG 而无需安装专业软件
- 批量生成多风格变体,从中筛选最优版本
注意事项:
- 输入文本质量直接影响输出效果,建议使用方法段的完整英文原文
- 复杂图形建议开启
optimize_iterations进行多轮精炼 - SAM3 API 模式(Roboflow)对于大多数用户是最低摩擦的选择
- 生成的 SVG 仍需在编辑器中做最终的细节调整
如果你对该项目有疑问,可以通过 GitHub Issues 或论文作者提供的微信群与社区交流。
参考资料
- AutoFigure 论文:Minjun Zhu et al., AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations, ICLR 2026. arXiv:2602.03828
- AutoFigure-Edit 论文:Zhen Lin et al., AutoFigure-Edit: Generating Editable Scientific Illustration, arXiv 2026. arXiv:2603.06674
- FigureBench 数据集:huggingface.co/datasets/WestlakeNLP/FigureBench
- DeepScientist 系统:github.com/ResearAI/DeepScientist