论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
5742点击    2025-06-04 09:24

你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)


别急,容在下为你推荐一款新时代科研党神器——PosterAgent,帮你一键从paper.pdf跳转poster.pptx


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少87%,还只需要0.0045美元,就可将22页的论文转化为可编辑的 “.pptx” 终稿海报。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准Paper2Poster,解决了长上下文、多模态压缩的评估空白。


话不多说,先给大家展示一波效果,以下面这篇CV论文为例。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


先喂给GPT-4o-image,得到的是这样的:


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


显然学术海报三要素(吸睛标题、重点突出、色彩排版),GPT-4o-image通通都没有。


不妨交给PosterAgent试试:


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


视觉更连贯、信息还高效,难怪连已经毕业了的师兄师姐们都在X上哭诉,凭什么我们当年没有它


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


这下妈妈再也不用担心我做不好Poster,被老板在群里夺命call了(狗头)


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


下面来讲讲它为啥这么好用。


多模态海报自动生成


Poster在学术会议里的重要性不言而喻,需要让与会者在几分钟内就迅速从中掌握核心内容,这就很考验制作者的论文浓缩能力,以及文本和图形的排版功底。


为了帮大家解放双手,以及更一目了然地评估海报效果,研究团队提出了评估基准Paper2Poster以及基于此构建的多智能体框架PosterAgent


Paper2Poster:首个学术海报评估基准


Paper2Poster的数据包含100对AI领域论文和作者设计的海报,涵盖计算机视觉(19%)、自然语言处理(17%)和强化学习(10%)等子领域的280个不同主题,论文平均22页,生成海报的文本压缩比约为14.4倍,图形减少比约为2.6倍。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


评估指标覆盖四个基本维度:


  1. 视觉质量:使用CLIP图像嵌入测量生成海报与作者设计海报之间的视觉相似度,再计算图像和文本的相关性,以确保图像属于有效整合。
  2. 文本连贯性:计算文本在Llama-2-7b-hf下的标准困惑度(PPL),衡量文字流畅度。
  3. 整体评估:选择一个VLM(如GPT-4o),从美学 (元素质量、布局平衡、参与度)信息 (清晰度、完整性、逻辑流)两个方面进行1到5分打分。
  4. PaperQuiz:这是团队专门设计的评估指标,以模拟作者和读者的交流。让代表不同专业水平(例如学生和教授)的VLMs阅读每张海报并回答测验,获得最高平均分的海报被认为在传达论文内容方面最有效。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


PosterAgent:多阶段自动生成框架


根据Paper2Poster的要求,团队设计了一个采用自上而下设计理念的多智能体流程PosterAgent。


首先全局地将整个文档重组为简洁、连贯的章节,然后进行局部精炼,以实现颗粒度对齐。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


具体包含三个关键组件:


  1. 解析器 (Parser):将工具和基于LLM的摘要相结合,提取关键文本和视觉内容,生成结构化摘要库(如各章要点、重要图表)
  2. 规划器 (Planner):匹配文本与图表,并用二叉树布局策略将其连贯排列,通过放大(zoom-in)机制迭代生成面板。
  3. 绘制器-评论器 (Painter-Commenter):绘制器将内容转为简洁的要点列表和用于渲染的可执行代码,而VLM作为评论器提供布局反馈,确保整体连贯性和避免溢出。


超越GPT-4o?


眼见为实,为验证PosterAgent生成效果,研究人员用Paper2Poster评估了四类基线方法:


  • 理想化方法 (Oracle methods):包含原始PDF和作者设计的海报GT Poster,作为最佳呈现基准。


  • 端到端方法 (End-to-end methods):使用GPT-4o


  • 多智能体工作流 (Multi-agent work flows):使用OWLPPTAgent


  • PosterAgent:框架变体分两种,PosterAgent-4o在内部LLM 和VLM评论器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,评论器则使用Qwen-2.5-VL-7B。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


实验结果表明,在视觉质量和文本连贯性上,虽然4o-Image达到了最高的视觉相似度,但它也记录了最差的困惑度,说明生成的海报可能乍一看吸引人,但实际细看全是嘈杂或不连贯的文本。


PosterAgent则实现了最高的图形相关性,在视觉相似度上也紧随人类设计的海报。


当VLM评判时,PosterAgent-4o的平均得分为3.72,达到了与人类设计海报相当的水平,而PPTAgent因为经常生成无意义的文本或大片空白区域,因此得分都较低。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


在PaperQuiz上,也能发现PosterAgent变体始终取得最佳分数。


值得注意的是,PosterAgent-4o虽然依据GPT-4o实现了冗长输出,但基于开源的Qwen-2.5系统变体在原始准确率上更胜一筹,说明PaperQuiz在评估时,内容量很重要,但呈现质量更重要


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


团队还计算了不同方法下的平均token成本,PosterAgent仅使用101.1K和47.6Ktoken,相较于OWL-4o成本降低了60%-87%,相当于每张海报只需要0.55美元 (基于4o)0.0045美元 (基于Qwen)


最后为了方便大家更直观地了解几种方法的海报生成效果,咱再举个例子。


这是论文作者自己做的,主题明确,重点突出,色彩搭配也和谐。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


这张来自GPT-4o-image,看起来好像还行?但是仔细看文字,里面还是有不少乱码。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


这张由GPT-4o-html生成,图片嵌入失败,文本也缺少排版。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


这张出自PPTAgent,生成了大量空白区域。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


下面这张来自OWL,同样缺少图像,甚至没有多余色彩填充。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


最后是咱们的PostAgent,对比下来,海报结构清晰明了,图表与文字匹配度也相当高,在视觉效果上更接近作者设计的海报。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


扩展一下思路,也许PosterAgent还可以用于制作课程学习资料。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


公司里的PPT也未尝不能一试。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


所以感兴趣的小伙伴们速速收藏起来这个海报神器~接下来的CVPR、ACL刚好都可以用上。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster


论文链接:https://arxiv.org/abs/2505.21497

代码链接:https://github.com/Paper2Poster/Paper2Poster

项目链接:https://paper2poster.github.io/


参考链接:

[1]https://x.com/real_weipang/status/1927797168171254006

[2]https://x.com/_akhaliq/status/1927721150584390129


文章来自于“量子位”,作者“鹭羽”。


论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster

关键词: AI , AI学术 , PosterAgent , AI写论文
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


3
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/