三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
三个大模型组队挑战o1,实测360多模型协作干掉提示词工程
10131点击    2024-09-20 20:25

OpenAI o1的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。


正如英伟达AI科学家Jim Fan所说,o1的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


Jim还引用了机器学习先驱Rich Sutton的经典文章《苦涩的教训》中的话说,只有两种技术可以让(AI)计算的潜能无限扩展——学习和搜索。


而现在,是时候把目光聚焦在后者了。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


在推理侧投入更多资源,模型也就有了更完备的思考过程,投入的增加换来的是质的提升。


在国内,360创始人周鸿祎的理念与之不谋而合,而且360更早就提出了“慢思考”的理念,并在技术架构和产品中都付诸了应用。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


同时,360还在其AI产品中强调多模合作,让来自不同厂商的大模型“抱团取暖”,为国内模型追赶OpenAI,找到了一条可行的道路。


从o1看大模型“慢思考”


虽然o1的具体思考过程始终是OpenAI的至高机密,但可以肯定的是,思维链(Chain of Thought, CoT)在其中扮演了重要角色。


OpenAI在关于o1的报告中表示,思维链能让模型学会认识并纠正错误,学会将棘手的步骤分解为更简单的步骤,甚至学会尝试不同方法,极大地提高了模型的推理能力。


今年的AI顶会ICLR上,谷歌大脑推理团队创建者Denny Zhou,清华姚班校友、斯坦福助理教授、斯隆奖得主马腾宇等人的一篇论文,更是揭开了思维链的无限潜能


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


透过现象看本质,从某种程度上看,思维链的本质就是2002年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的“系统2”,也就是“慢思考”系统


所谓“系统2”或“慢思考”,是指复杂、有意识的推理,与之相对的是“系统1”或“快思考”,即简单无意识的直觉。


而o1的表现证明,这种适用于人类的“慢思考”理念,对大模型来说同样适用。


但应当注意的是,这两种系统在人脑中是同时存在、相互配合的,在大模型当中也不应被割裂开来


周鸿祎认为,o1遵循的可能就是“双系统理论(Dual Process Theory)”,其核心在于快慢两种系统的协同运作。


作为“百模大战”的选手,周鸿祎和360,也是“慢思考”以及“多系统协同”的思考者和先行者。


7月底的ISC.AI大会上,周鸿祎就宣布,要“打造慢思考系统,从而增强大模型的慢思考能力”。


基于“多系统协同”机制,360利用多个模型组成的智能体框架,实现了大模型从“快思考”到“慢思考”的转变,并打造出了两款明星AI产品——360AI搜索360AI浏览器


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


让不同大模型“抱团取暖”


360AI搜索一共有简洁回答、标准回答和深入回答三种模式,其中一次深入回答会可能就要涉及7-15次的大模型调用


比如可能会涉及1次意图识别模型调用,1次搜索词改写模型调用,5次搜索调用,1次网页排序调用,1次生成主回答调用,1次生成追问调用……


在多个模型的协同配合下,360AI搜索形成了这样的工作链路:


  • 首先利用意图分类模型,对用户的问题进行意图识别;

  • 接着用任务路由模型对问题进行拆解,不同的问题可以划分成“简单任务”、“多步任务”和“复杂任务”,对多个模型进行调度;

  • 最后构建AI工作流,使多个大模型协同运作。

比如面对一道古诗词中译英题目,路由模块就会调用起翻译、反思等多个模型,让这些模型分工配合、共同完成任务。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


而且最新版本还在生成答案过程中进一步加强了多模型协作,将其作为了一种独立的回答模式。


三个不同模型分别扮演生成初步答案的专家、检查回答的反思者和最终给出答案的总结者


例如在这个案例中,作为专家的Kimi提到了问题的关键,但表述不够鲜明,在反思模型360智脑的建议下,豆包进行了重新总结,形成了直击问题的解答。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


这样的工作模式不仅将快慢思考协同和反思机制引入了AI应用,更通过不同模型的交叉验证,进一步提高了整体表现。


在另一款AI产品——360AI浏览器当中,16家厂商的54款大模型也已齐聚一堂,可以实现多种传统浏览器所不具备的能力。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


AI浏览器可以10秒钟总结上万字英文学术论文,针对其中的细节也可以尽情发问。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


可以沉浸式翻译pdf文档,原文和译文同步滚动、随时对照。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


还能化身“AI省流侠”,分分钟帮忙总结在线视频内容并划出重点,还能根据视频架构绘制脑图,甚至分析创作风格……


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


不仅在线文档和视频可以解析,这一系列分析功能,对于本地文件也同样适用


更为方便的是,360AI浏览器还有移动端版本,在手机上也能随时利用AI辅助上网冲浪。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


已经入驻360AI浏览器、同样基于CoE架构的AI助手(bot.360.com),则可根据任务类型和模型特长自动调度最合适的大模型。


无需切换平台,就能直接对话54款大模型,或者对话更加强大混合大模型,想选哪个就选哪个。


AI助手同样支持「多模型协作」,用户可以从54款模型中任选3款,分别做专家、反思者和总结者。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


未来,360还会推出由五个甚至更多模型协作完成任务的版本。


还是在360AI浏览器中,AI助手还上线了“模型竞技场” (bot.360.com),支持54款大模型产品的“同台竞技”,最新版本中还上线了“组队较量”、“匿名比拼”、“随机对战”等功能。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


总的来说,360AI搜索还是360AI浏览器虽然侧重点有所不同,但背后体现的还是那个核心理念——


在进行“慢思考”的同时,不卷单一模型的能力,而是让模型“抱团取暖”,博采众长,形成“众人拾柴火焰高”的局面。


当然,这样做的意义,也不仅仅是为用户带来了更好的AI体验,对各大模型的开发者而言同样是一种激励


我们知道,大模型研发投入巨大,唯有足够多的用户才能够收回成本。


而依托360AI搜索、浏览器、安全卫士等入口,360将能够触达10亿用户的入口开放给了大模型开发者。


这也是阿里、腾讯、百度等大厂,以及大模型六小虎纷纷加入360AI架构的重要原因。


所以,360与这十多家厂商双向奔赴,实现了模型与AI应用相互促进、彼此发展的良性循环。


模型竞技场更是给国产大模型提供了一个在竞争中学习的平台,以及获得用户评价的绝佳机会,塑造了更加积极进取的氛围。


“消灭”Prompt工程


从技术层面上看,在理念与产品之间架起桥梁的,是360独创的CoE(Collaboration-of-Experts,专家协同)架构。


CoE架构集合了数量更多的大模型和专家模型,通过思维链和“多系统协同”的方式实现了“快思考”和“慢思考”的有机结合。


在思路上,CoE与o1选择了相近的路线,但是在深度上走得更远——


o1无论再怎么融合,也无外乎是OpenAI的自家模型,CoE却是海纳百川,集合了数量更多的大模型和专家模型。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


CoE架构原理图

而且,CoE架构中还接入了很多十亿甚至更小参数的专家模型,使得整个系统更加智能,在获得高质量回答的同时,节约推理资源、提升响应速度


早在CoE架构刚发布的时候,基于CoE集各家所长的混合大模型能力就超过了(当时最强的)GPT-4o。


该混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分;而且除了代码以外,其余11项指标均优于GPT-4o。


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程


而且CoE架构对所有模型都敞开怀抱,比OpenAI在开放协作的道路上走的更远……


另外,无论是OpenAI的o1,还是360的CoE,都将让大模型的发展走向一个新的趋势——


复杂的人工环节将实现自动化,具体到大模型当中,就是“消灭”Prompt工程


乍一看有些反直觉,因为在我们使用大模型时,提示词的好坏对生成内容有着决定性的影响,其重要性不言而喻。


但仔细想想又并不矛盾——大模型等AI应用,归根结底是要为了人类而服务;


而提示工程却是让人类去适应模型的工作方式,简直“倒反天罡”。


所以,提示工程固然重要,但不该成为普通用户使用大模型的“绊脚石”


解决的思路就是将提示词的设计工作,像其他任务一样,作为思维链中的一环,交给大模型来做。


这样的模式下,提示工程的灵魂依然被保留,但在用户的视野当中逐渐淡化,形成一种“消亡”的感观。


这种模式背后所反映的,也是360对AI未来发展的一点期许——


实现AI向着更多人的普惠,让大模型不再“高居庙堂”,而是成为万家灯火。


文章来源于“量子位”,作者“克雷西”


三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0