实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。
9286点击    2026-05-01 10:51

这段时间做了巨多PPT。


多到我现在都条件反射了,好不好看先放一边,先看AI容易错的细节。


文字有没有糊,布局是不是在装高级,图片是不是只是看起来有氛围感,该有的信息都没放进去,


再就是画面上有没有一些莫名其妙的英文小字,因为有的时候模型会把思考过程也写到页面上。


先给大家看两类AI做PPT的主要思路。


一类是用文生图做出来的,Nano Banana和Image2。生图路线的优势很明显。风格化强,氛围感足,你让它做一个赛博朋克,液态玻璃,像素游戏啥的都不是什么大问题。


缺点也明显,生图模型很喜欢把大量文字信息塞进一张图片里,导致整个页面看起来比较拥挤,分不清楚主次。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


另一类是用HTML做出来的,会有条理很多。文字样式能改,图标能改,排版也能修,还能插入 SVG,动效,视频背景和组件。


但也有坑就是了。


如果你用的模型比较不会说人话,GPT-5.4就很喜欢在 UI 里放上自己的思考过程。最后效果就是,远看很高级,近看页面上突然冒出来几段不明所以的英文小字。。。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这周我刚好参加了一个8小时的直播,深度用了下千问做PPT的功能。


它目前和我们上面提到的两种都不太一样,简单来说,就是用模板系统保证PPT的稳定性,然后用Agent拆具体内容和切换风格。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


直播的时候我本来以为大家测PPT生成最后都会问差不多的问题,能不能更好看,能不能导出,能不能二次修改。


结果看下来完全不是,实际上大家做PPT时关注的点还挺不同的,


比如老师,做 PPT可能就会关心知识点有没有罗列清楚,做时尚行业的,就比较会关心视觉风格有没有贴合当季,打黑客松的就会关心信息是不是成体系的,投资人能不能一眼看懂。


当然,还有一些人是手里有一堆数据,但不知道怎么排版,想让AI全托管的。


所以我这次跟千问一拍即合,除了视觉风格之外,按照任务的复杂程度,给它安排了终极测试。从风格化,到信息搜索,到方法论,到上传模板,到数据自排版,再到HTML风格约束。


看看它到底能稳稳接住哪几种。


第一组,风格化。


我让它基于星露谷物语的视觉风格,做一份25页的年度运营报告。


帮我生成PPT,基于星露谷物语的视觉风格,生成一份25页的项目年度运营报告PPT。整体表达上,将业务增长类比为农场扩建进程,把用户增长转化为社区中心修复进度。
每一页以春夏秋冬四季场景作为背景变化。图标体系需要统一设计,包括体力条用来表示预算消耗,技能等级用于体现团队能力。
内容结构需要有完整叙事感,从农场整体概览开场,逐步过渡到四季阶段性的运营数据,再到过程中遇到的问题与收获,最后落到未来扩建与发展规划。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这组考验的是它能不能get到星露谷的视觉风格元素,再融合到一份能够投入使用的 PPT 上。


整个视觉效果其实和我们平时工作中真实做的 PPT 效果类似,能用动态图表展示相数据,也能用到Agent本身的优势做出数据分析。


第二组,真实信息搜索和图片处理。


我让它收集曼哈顿在售的20套顶级豪华公寓,做一份40页的销售画册。


帮我生成PPT,收集曼哈顿目前在售的20套顶级豪华公寓的户型图和室内实景图,并制作一份40页的PPT销售画册。

整体排版中,图片需要自动裁切到合适比例,以适配页面布局,同时提取每套房源的每平方英尺单价。

设计风格强调几何构成,主色调为黑、白、红,字体使用无衬线字体。

内容结构安排如下,第1页为封面和市场概览,第2到30页为单个房源的深入介绍,包含视觉展示、关键数据以及优缺点分析,第31到38页为横向对比表格和图表,第39页为价格总结,第40页为行动引导页。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这一组 PPT,整个画面做得更克制点。


它没有过度地去复杂化,也没有添加很多不必要的元素,整个画面非常简洁明了。


其实我反而觉得这样的PPT更适合我们平时的办公场景,去做演讲。


这里我没有提供素材图片,公寓的素材图片和房源的信息,都是直接让千问自己去搜索整合了互联网上已有的信息。


第三组,麦肯锡式商业结构。


套娃的来了,我让千问App给千问App做一份15到20页的完整可编辑 PPT。


帮我生成PPT,你是麦肯锡级演示文稿专家,为千问App创建一份15-20页完整可编辑PPT。

结构必须遵循金字塔原则,包括标题和议程,执行摘要,市场和问题分析,解决方案细节,财务模型与预测,团队与竞争优势,风险缓解和行动号召。

视觉要求,极简高级感,深色或品牌配色,大量留白,层级清晰的标题,无多余装饰。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这组测的是叙事结构。


AI做商业PPT的问题是看起来每一页都有内容,但整套看完你不知道它到底想说什么。


在这份PPT实际上就可以看到,从目录开始就有一个完整的叙事逻辑,从B端到C端,从市场到商业模式,再到风险评估,每一步都做了相应的页面进行解释。


第四组,路演PPT,


帮我生成PPT,为一个 AI Agent 自动化开发平台 SaaS,面向黑客松与开发者协作,制作一份12页的投资人路演PPT。

需要包含问题与解决方案框架,市场规模分析,商业模式画布,竞争格局分析,团队介绍页,财务预测,增长与运营指标,以及融资需求与资金用途说明。

设计风格要求干净专业,使用现代无衬线字体,搭配克制的品牌色点缀。整体信息密度较高,但需要保证易于快速浏览和理解。

实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这种路演的PPT,基本上都是比较流程化、固定的内容分享逻辑。但我们在手搓的时候,也还是可能就会漏掉一些细节。


所以我就直接把大家常在ppt里面提到的部分写到提示语里,让千问去安排每部分的内容长度和排版。


第五组,模板复用。


这里我先给了一个想要的模板,然后我让千问以瓦猫为主题给我做一个类似样式的PPT,


帮我生成PPT,分析我上传的PowerPoint模板文件,梳理出其中所有幻灯片版式,并整理成一份完整的视觉版式清单。

随后基于该模板,围绕瓦猫非遗制作一套完整的演示文稿。根据内容类型匹配最合适的版式,例如封面页、正文内容页、数据图表页等。


我给到的模板是这样的,


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


千问给到我的是这样的,


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


不能说一模一样,但设计以及用到的素材,确实是跟瓦猫相关,而且风格非常贴近。排版和内容设计也是按照我给出的模板来的,我觉得有个六七成了。


第六组,纯数据让千问自由发挥。


我给了它Tesla2025 年Q1的季度业务复盘数据,让它做管理层阅读的QBR。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


帮我生成PPT,请基于我本地上传的数据文件,制作一份Tesla 2025 年Q1季度业务复盘 PPT。

要求严格优先读取本地文件中的数据,不要自行补充或改写数值。如果本地文件中存在多个口径,优先采用GAAP口径,并明确标注。

输出内容需包含业绩概览,运营概览,业务结构,亮点,挑战,结论。每一页都要写出所引用的具体数据,并保证前后口径一致。如果本地文件里没有某项数据,请明确写出未在本地文件中找到,不要猜测。

实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


拿AI做PPT的时候我最怕的就是乱改我的数据,加了很多废话。


我这里截取了生成的PPT中关于数据的部分。可以看到它把整个表格拆分成了不同类型的数据,分到不同的PPT页里进行了数据分析,要是整体风格能往特斯拉的主题色接近就更好了。


第七组,Apple Liquid Glass 风格。


这组就是纯审美压力测试。


Generate a 35-slide premium product presentation in Apple Liquid Glass style.

主题是 MacBook Neo。整体需要有 Apple inspired 的 Liquid Glass 设计语言,包括半透明玻璃面板,柔和模糊,大量留白,极简风格。

叙事结构从重新定义笔记本体验开始,到当前笔记本的问题,再到 MacBook Neo 的突破,真实使用场景,性能对比。


这种提示词,图像模型会很开心,因为它本来就擅长风格化。但PPT Agent要做的,就不是一张图好看那么简单,它要保证这35页看上去是一个整体。


很明显,千问的脑容量还不错。


实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


第八组,想做一个网页一样做PPT。


这组其实已经不是传统的PPT生成方式了,


我就在想啊,既然是用代码生成的话,那我为什么不可能把它当做一个真正的HTML网页去生成?


这样一些动效组件,我就能够直接指定引用,都不需要去描述一些风格词。


帮我生成一个全屏 presentation-style slide deck web app,5 页,适合现场演示和口播。使用 React 和 Tailwind CSS,安装hls.js和lucide-react。

整体设计系统使用 Plus Jakarta Sans,黑色主题,所有文字白色,字体和间距全部响应式。所有卡片和 UI 元素采用 liquid glass 玻璃质感,不使用阴影,需要用键盘翻页。

实测千问新出的PPT Agent,可算不用为了风格化牺牲二次编辑了。


这比我预设中的,能够完全按照我提供给它的动效文件跟代码框架还差了一点,


这个可能就是后续代码生成PPT的一个优化方向,包括可以把视频模型生成的循环视频素材作为整个PPT的背景等等等等。


总的来说,


千问这次的PPT功能使在纯代码生成和纯套公式的模版化两者取了个中间值。


它提前准备了很多套相对稳定的表达模版,还能秒切不同的预设主题。


当然,代价也有。


单页的布局和文字区域会相对固定,


自由度会被压缩。


但对大多数人来说,


无限自由反而会带来无限翻车,


重要的是用更少的折腾成本,把内容讲清楚。


去年我们还在纠结,用DeepSeek做的PPT能不能下载。


后来开始琢磨,做出来后能不能多次修改。


再后来,NotebookLM这类图生PPT出来,


我们发现图像模型可以承载更多的信息。


绕了这么一大圈,其实图生和代码生成这两个流派,都在往同一个地方靠。


就是怎么把我们脑子里想表达的东西,


用一个好看又好懂的方式,


摆到所有想听的人面前。


@ 作者 / 卡尔


文章来自于微信公众号 "卡尔的AI沃茨",作者 "卡尔的AI沃茨"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales