论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

9965点击 2025-06-04 09:24

你好研究僧，听说刚刚中了顶会，却还在愁怎么做Poster（学术海报）？

别急，容在下为你推荐一款新时代科研党神器——PosterAgent，帮你一键从paper.pdf跳转poster.pptx。

相比GPT-4o，PosterAgent生成指标更优，同时token使用量减少87%，还只需要0.0045美元，就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

来自滑铁卢大学的联合研究团队，还精心构建了首个学术海报评估标准Paper2Poster，解决了长上下文、多模态压缩的评估空白。

话不多说，先给大家展示一波效果，以下面这篇CV论文为例。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

先喂给GPT-4o-image，得到的是这样的：

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

显然学术海报三要素（吸睛标题、重点突出、色彩排版），GPT-4o-image通通都没有。

不妨交给PosterAgent试试：

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

视觉更连贯、信息还高效，难怪连已经毕业了的师兄师姐们都在X上哭诉，凭什么我们当年没有它。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

这下妈妈再也不用担心我做不好Poster，被老板在群里夺命call了（狗头）。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

下面来讲讲它为啥这么好用。

多模态海报自动生成

Poster在学术会议里的重要性不言而喻，需要让与会者在几分钟内就迅速从中掌握核心内容，这就很考验制作者的论文浓缩能力，以及文本和图形的排版功底。

为了帮大家解放双手，以及更一目了然地评估海报效果，研究团队提出了评估基准Paper2Poster以及基于此构建的多智能体框架PosterAgent。

Paper2Poster：首个学术海报评估基准

Paper2Poster的数据包含100对AI领域论文和作者设计的海报，涵盖计算机视觉（19%）、自然语言处理（17%）和强化学习（10%）等子领域的280个不同主题，论文平均22页，生成海报的文本压缩比约为14.4倍，图形减少比约为2.6倍。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

评估指标覆盖四个基本维度：

视觉质量：使用CLIP图像嵌入测量生成海报与作者设计海报之间的视觉相似度，再计算图像和文本的相关性，以确保图像属于有效整合。
文本连贯性：计算文本在Llama-2-7b-hf下的标准困惑度（PPL），衡量文字流畅度。
整体评估：选择一个VLM（如GPT-4o），从美学 （元素质量、布局平衡、参与度）和信息 （清晰度、完整性、逻辑流）两个方面进行1到5分打分。
PaperQuiz：这是团队专门设计的评估指标，以模拟作者和读者的交流。让代表不同专业水平（例如学生和教授）的VLMs阅读每张海报并回答测验，获得最高平均分的海报被认为在传达论文内容方面最有效。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

PosterAgent：多阶段自动生成框架

根据Paper2Poster的要求，团队设计了一个采用自上而下设计理念的多智能体流程PosterAgent。

首先全局地将整个文档重组为简洁、连贯的章节，然后进行局部精炼，以实现颗粒度对齐。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

具体包含三个关键组件：

解析器 （Parser）：将工具和基于LLM的摘要相结合，提取关键文本和视觉内容，生成结构化摘要库（如各章要点、重要图表）。
规划器 （Planner）：匹配文本与图表，并用二叉树布局策略将其连贯排列，通过放大（zoom-in）机制迭代生成面板。
绘制器-评论器 （Painter-Commenter）：绘制器将内容转为简洁的要点列表和用于渲染的可执行代码，而VLM作为评论器提供布局反馈，确保整体连贯性和避免溢出。

超越GPT-4o？

眼见为实，为验证PosterAgent生成效果，研究人员用Paper2Poster评估了四类基线方法：

理想化方法 （Oracle methods）：包含原始PDF和作者设计的海报GT Poster，作为最佳呈现基准。

端到端方法 （End-to-end methods）：使用GPT-4o。

多智能体工作流 （Multi-agent work flows）：使用OWL和PPTAgent。

PosterAgent：框架变体分两种，PosterAgent-4o在内部LLM 和VLM评论器均使用GPT-4o，PosterAgent-Qwen的文本生成使用Qwen-2.5-7B，评论器则使用Qwen-2.5-VL-7B。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

实验结果表明，在视觉质量和文本连贯性上，虽然4o-Image达到了最高的视觉相似度，但它也记录了最差的困惑度，说明生成的海报可能乍一看吸引人，但实际细看全是嘈杂或不连贯的文本。

PosterAgent则实现了最高的图形相关性，在视觉相似度上也紧随人类设计的海报。

当VLM评判时，PosterAgent-4o的平均得分为3.72，达到了与人类设计海报相当的水平，而PPTAgent因为经常生成无意义的文本或大片空白区域，因此得分都较低。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

在PaperQuiz上，也能发现PosterAgent变体始终取得最佳分数。

值得注意的是，PosterAgent-4o虽然依据GPT-4o实现了冗长输出，但基于开源的Qwen-2.5系统变体在原始准确率上更胜一筹，说明PaperQuiz在评估时，内容量很重要，但呈现质量更重要。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

团队还计算了不同方法下的平均token成本，PosterAgent仅使用101.1K和47.6Ktoken，相较于OWL-4o成本降低了60%-87%，相当于每张海报只需要0.55美元 （基于4o）或0.0045美元 （基于Qwen）。

最后为了方便大家更直观地了解几种方法的海报生成效果，咱再举个例子。

这是论文作者自己做的，主题明确，重点突出，色彩搭配也和谐。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

这张来自GPT-4o-image，看起来好像还行？但是仔细看文字，里面还是有不少乱码。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

这张由GPT-4o-html生成，图片嵌入失败，文本也缺少排版。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

这张出自PPTAgent，生成了大量空白区域。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

下面这张来自OWL，同样缺少图像，甚至没有多余色彩填充。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

最后是咱们的PostAgent，对比下来，海报结构清晰明了，图表与文字匹配度也相当高，在视觉效果上更接近作者设计的海报。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

扩展一下思路，也许PosterAgent还可以用于制作课程学习资料。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

公司里的PPT也未尝不能一试。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

所以感兴趣的小伙伴们速速收藏起来这个海报神器～接下来的CVPR、ACL刚好都可以用上。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

论文链接：https://arxiv.org/abs/2505.21497

代码链接：https://github.com/Paper2Poster/Paper2Poster

项目链接：https://paper2poster.github.io/

参考链接：

[1]https://x.com/real_weipang/status/1927797168171254006

[2]https://x.com/_akhaliq/status/1927721150584390129

文章来自于“量子位”，作者“鹭羽”。

论文秒变海报！开源框架PosterAgent一键生成顶会级学术Poster

AI AI学术 PosterAgent AI写论文

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/