Skip to content
OpenInfoHub
Go back

AutoFigure 完全指南:用 AI 自动生成可编辑的学术插图

高质量的学术插图是科研论文里不可或缺的沟通媒介,但手工绘制一张架构图往往要耗费研究者数小时甚至数天。AutoFigure 与其升级版 AutoFigure-Edit 正是为解决这一痛点而生——它们能从论文方法段文本直接生成可编辑的出版级科学插图,并已在 ICLR 2026 上获得认可。

关键链接

目录

背景:科学插图的生成困境

在学术领域,架构图、流程图、方法示意图等插图的制作历来是研究效率的瓶颈:

AutoFigure 项目的目标是:将方法文本作为输入,输出可直接投稿的 SVG 格式科学插图,并兼顾结构完整性与美观效果。

AutoFigure:第一代智能体框架

核心定位

AutoFigure(arXiv:2602.03828)是首个用于从长篇科学文本自动生成科学插图的智能体框架,已被 ICLR 2026 录用。其核心贡献体现在两方面:

  1. FigureBench 基准数据集:第一个大规模科学插图生成评测基准
  2. AutoFigure 系统:基于多轮审查-精炼循环的自动生成流水线

FigureBench 数据集

为了系统性评估科学插图生成能力,研究团队构建了 FigureBench,这是迄今规模最大的科学文图对数据集。

来源类型样本数平均文本长度(词)平均组件数
学术论文3,20012,732约 5.3
博客文章204,047约 5.3
综述论文402,179约 5.3
教材章节40352约 5.3
合计3,30010k+约 5.3

数据集覆盖论文、博客、综述、教材四种场景,所有文图对均来自真实出版内容,图形复杂度高(平均 5.3 个组件),可在 HuggingFace 上获取:

from datasets import load_dataset
dataset = load_dataset("WestlakeNLP/FigureBench")

工作原理:审查-精炼循环

AutoFigure 的核心机制是一个双智能体审查-精炼循环(Review-Refine Loop)

描述文本

[生成智能体] ——→ 初始 SVG/mxGraph XML

[评估智能体] ——→ 质量评分 (0-10) + 具体反馈

[精炼循环] ——→若未达到阈值则继续迭代

出版级插图

生成智能体:基于方法文本和参考图形,使用 LLM 生成初始草稿(支持 SVG 和 mxGraph XML 两种格式,后者与 draw.io 完全兼容)

评估智能体:对生成图形进行 0-10 评分,识别布局错误、标签缺失、视觉不一致等问题,并给出具体修改建议

精炼循环:持续迭代直到质量评分超过设定阈值(默认 9.0 分),确保输出达到投稿要求

功能特性概览

功能说明
📝 文本生图从自然语言描述直接生成图形
📄 论文生图解析 PDF/Markdown 论文,自动提取方法段并生图
🔄 迭代精炼双智能体持续优化,直到达到质量阈值
🎨 多格式输出SVG 矢量图或 mxGraph XML(draw.io 兼容)
💅 美化增强AI 后处理,生成多个美化变体
🖥️ Web 界面Next.js 前端,支持生成与在线编辑

AutoFigure-Edit:第二代可编辑系统

技术跃升

AutoFigure-Edit(arXiv:2603.06674,2026 年 3 月发布)是 AutoFigure 的全面升级版,解决了第一代系统在可编辑性、风格可控性和生成效率上的三大瓶颈。

AutoFigure-Edit 已在 HuggingFace Daily Papers 上获得 17 次 upvote,GitHub 上获得 1.9k 星。

核心突破:

  1. 全可编辑 SVG 输出:输出结构化矢量图,每个文字、形状、布局均可无损编辑
  2. 参考图像风格迁移:上传参考图片,系统自动模仿其视觉风格
  3. 内嵌 SVG 编辑器:浏览器内直接编辑,零工具切换成本

四阶段流水线详解

AutoFigure-Edit 的核心是一个四阶段处理流水线,将原始文本转化为精细矢量图:

第 1 阶段:图形生成(figure.png)
    LLM 基于方法文本生成栅格草稿

第 2 阶段:SAM3 分割(sam.png)
    SAM3 分割模型检测并分离图标、文字等区域

第 3 阶段:SVG 模板构建(template.svg)
    系统构建结构化 SVG 骨架,使用标准占位符

第 4 阶段:最终组装(final.svg)
    高质量裁切图标 + 矢量化文字注入模板,完成最终 SVG

为什么选择 SAM3?

SAM3(Segment Anything Model 3)是 Meta 开发的新一代图像分割模型,支持多提示词(如 icon,person,robot,animal)同时检测多类目标,并能自动合并重叠区域,特别适合学术插图中的程式化图标提取。

风格迁移实战

AutoFigure-Edit 支持通过上传参考图像来控制输出风格,系统能够自动模仿参考图的:

例如,针对同一篇论文(CycleResearcher),使用三种不同的参考风格,可以生成截然不同视觉效果的插图,而内容结构保持一致。

快速上手

方式一:在线体验(最简单)

直接访问 deepscientist.cc,无需安装任何软件,免费向全球学者开放。

方式二:Docker 部署(推荐自托管)

# 1. 克隆 AutoFigure-Edit 仓库
git clone https://github.com/ResearAI/AutoFigure-Edit.git
cd AutoFigure-Edit

# 2. 配置环境变量
cp .env.example .env
# 编辑 .env 文件,至少填写:
# HF_TOKEN=hf_xxxxxxxxxxxxx(HuggingFace Token)
# ROBOFLOW_API_KEY=your_key(可选,用于 SAM3 API 模式)

# 3. 启动服务
docker compose up -d --build

# 4. 验证健康状态
curl http://localhost:8000/healthz
# 预期返回:{"status":"ok"}

打开 http://localhost:8000 即可使用 Web 界面。

国内网络优化配置(在 .env 中添加):

DOCKER_DNS_1=223.5.5.5
DOCKER_DNS_2=119.29.29.29
BASE_IMAGE=docker.m.daocloud.io/library/python:3.11-slim
PIP_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple

方式三:Python SDK(AutoFigure 原版)

git clone https://github.com/ResearAI/AutoFigure.git
cd AutoFigure
pip install -e .
playwright install chromium  # 渲染所需

基本用法——文本生图

from autofigure import AutoFigureAgent, Config

# 配置 LLM 提供商
config = Config(
    generation_api_key="your-api-key",
    generation_provider="openrouter",  # openrouter / gemini / bianxie
    generation_model="google/gemini-2.5-pro",
)

agent = AutoFigureAgent(config)
result = agent.generate(
    description="展示 Transformer 训练流水线的流程图",
    max_iterations=5,
    output_format="svg",
    topic="paper"  # paper / survey / blog / textbook
)

print(f"✅ 生成完成:{result.svg_path}(评分:{result.final_score}/10)")

从 PDF 论文自动生图

result = agent.generate_from_paper(
    paper_path="./my_paper.pdf",
    max_iterations=5,
    output_format="svg",
    enable_enhancement=True,  # 开启美化增强
)

if result.success:
    print(f"方法文本摘要:{result.methodology_text[:200]}...")
    print(f"生成图形路径:{result.svg_path}")

生成多个美化变体

result = agent.generate(
    description="神经网络架构图",
    enable_enhancement=True,
    enhancement_count=3,           # 生成 3 个变体
    art_style="简洁的现代科学风格",
    enhancement_input_type="code2prompt"  # 最高质量模式
)

方式四:AutoFigure-Edit CLI

# 使用 Roboflow API 模式(无需本地安装 SAM3)
export ROBOFLOW_API_KEY="your-roboflow-key"

python autofigure2.py \
  --method_file paper.txt \
  --output_dir outputs/demo \
  --provider bianxie \
  --api_key YOUR_KEY \
  --sam_backend roboflow

Web 界面使用指南

配置页面

在 Web 界面左侧粘贴论文方法段文本,右侧进行如下配置:

参数说明推荐值
ProviderLLM 提供商openrouter(最全兼容)
OptimizeSVG 模板精炼迭代次数0(标准使用)
Image Size图像分辨率(仅 Gemini)2K
Reference Image风格参考图(可选)上传目标风格图片
SAM3 Backend分割模型来源roboflow(免费 API)

画布与编辑器

生成完成后,结果直接加载到内嵌的 SVG-Edit 画布中:

支持的 LLM 提供商

AutoFigure 系列工具均支持以下三类 LLM 接入方式:

提供商接入端点说明
OpenRouteropenrouter.ai/api/v1支持 Gemini/Claude 等多种模型
扁鹊(Bianxie)api.bianxie.ai/v1OpenAI 兼容格式
Google Geminigenerativelanguage.googleapis.com/v1beta官方 Google Gemini API

默认推荐模型

如需接入自托管或第三方 OpenAI 兼容端点,使用 --provider openrouter --base_url <your_endpoint> 即可。

SAM3 安装说明

AutoFigure-Edit 依赖 SAM3 进行图标分割,有两种使用方式:

API 模式(无需本地安装)

推荐使用 Roboflow 免费 API:

export ROBOFLOW_API_KEY="your-roboflow-key"

或使用 fal.ai:

export FAL_KEY="your-fal-key"

本地安装

git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
# 注:需要 Python 3.12+、PyTorch 2.7+、CUDA 12.6(GPU 构建)

SAM3 模型权重托管在 HuggingFace (facebook/sam3),需要先请求访问权限并通过 huggingface-cli login 认证。

两代系统对比

维度AutoFigure(第一代)AutoFigure-Edit(第二代)
输出格式SVG / mxGraph XML纯 SVG(结构化可编辑)
核心机制审查-精炼循环四阶段流水线(含 SAM3 分割)
风格控制不支持参考图像风格迁移
在线编辑外部工具内嵌 SVG-Edit 画布
图标提取SAM3 精准分割 + 裁切
部署方式Python SDK / WebDocker / CLI / Web
论文状态ICLR 2026 正式录用arXiv 预印本
GitHub 星数~900~1,900

进阶配置参数

AutoFigure-Edit 提供丰富的 CLI 调参空间:

python autofigure2.py \
  --method_file paper.txt \
  --output_dir outputs/demo \
  --provider openrouter \
  --api_key YOUR_KEY \
  --image_model "google/gemini-3.1-flash-image-preview" \
  --svg_model "google/gemini-3.1-pro-preview" \
  --image_size 2K \                    # 1K / 2K / 4K(仅 Gemini)
  --sam_prompt "icon,person,robot" \   # 分割检测目标
  --sam_backend roboflow \             # local / fal / roboflow
  --sam_max_masks 32 \                 # fal.ai 最大掩码数
  --merge_threshold 0.5 \             # 0 表示禁用掩码合并
  --optimize_iterations 0 \           # 模板精炼迭代次数(0=禁用)
  --reference_image_path style.png    # 风格参考图路径(可选)

项目动态

以下为 ResearAI 团队发布的关键进展节点:

总结与使用建议

AutoFigure 系列工具为学术科研人员提供了一条从文本到图形的自动化路径:

推荐使用场景

注意事项

如果你对该项目有疑问,可以通过 GitHub Issues 或论文作者提供的微信群与社区交流。

参考资料


Share this post on:

Next Post
AI 指数级增长时代的产品管理:来自 Anthropic Claude Code 负责人的一线经验