从2022年10月底ChatGPT横空出世,到去年3月百模大战兴起,一年多时间过去,许多家都宣称自己的大模型水平来到第一梯队,更不乏有所谓全面超越GPT的,列出来的跑分也是各种吊打。
在上海人工智能实验室上周刚刚公布的测评榜单上,GPT-4依旧独领风骚,排名第一,不过国产阵营已经大踏步追了上来,差距逐步缩小。
那么国产大模型到底来到了什么样的水平,理论跑分和实践效果有多大的差距?带着这些问题我们横评三款公认水平比较高的国产大模型,分别是智谱GLM-4,文心一言4.0和字节的豆包,测评基准则是GPT-4。
由于是主观测评(毕竟客观测评看跑分就够了),所以我们按照10分满分制做了一个测评量表如下。
体验环境:网页版
打分标准:既然是测试,量化尺度还是要讲的,每轮回答效果十分制打分。
分数解释10分理想回答,全面满足我的需求5分有价值及格线,没有完全满足,还需做得更好1分你说你懂我,可你又不回答我0分你不懂我
联网查询、数据分析、多模态文生图、长文档解读、还有智能体,这些基本能力测试是国产大模型刷分最多的地方,那么在实际案例里它们的表现如何呢?
1、联网查询
大模型历来存在幻觉、实时性不足等问题。高级联网功能允许模型通过自主搜索查询,获取更新更准确的信息,提高答案的准确性和实时性。
个人偏好听歌演唱会,来2道这方面的问答看看~
问题1:杭州周杰伦演唱会门票价格
2月2号在某麦开售即秒没,大家真的太有钱了……看看模型能否回答最新场次票价?
GLM4:
GPT4:
文心4.0:
豆包:
各家都成功调用了联网搜索功能,均得10分,豆包的格式真的优雅~
问题2:旋转保龄《老婆不在家》歌词中,她更喜欢她的___和___?
答:Beyond 和 刘德华
GLM4:
GPT4:
文心4.0:
豆包:
测试了一首我很喜欢但是相对冷门的歌词,除了豆包莫名其妙判断不恰当以外,其他3家再积10分~
本环节分数如下
2、数据分析
最期待的新功能!数据分析也算是各类文职必备技能了,算数统计找归因,属实令人头秃,让大模型帮你干活~
Prompt:统计: requester为Other的Number of Requests,按Country为Germany的进行排列,折线图形式
(附件数据来源:google-government-removal-requests.csv)
数据分析功能目前仅GPT4和GLM4支持。
这个需求来自一位法师朋友,她的原始数据非常杂乱,想要提取信息需要费点劲
看到两家的输出流下了感激的泪水
GLM4:
GPT4:
文心4.0:
文心无法上传csv数据,不具备分析能力,本轮不能完成任务。
豆包:
豆包无法上传文档,不具备分析能力,本轮不能完成任务。
本环节分数如下
3、多模态-文生图
文生图代表的多模态能力被普遍认为是大模型的一个重点指标,大家表现怎么样呢?
Prompt1-1:画一个动画角色史努比的头像形象,需要冲浪动作,背景是海浪,画风是动画。
GLM4:
GPT4:
文心4.0:
豆包:
Prompt1-2:换成史努比在房子上躺着睡觉。
GLM4:
GPT4:
文心4.0:
豆包:
该形象的所属公司一直很关注版权问题,各家模型在合规上都较满意
•一轮最佳 GLM4,配色精准,动作领会,不过尾巴被画上了脚,仍有提升空间,计8分;
GPT4挺适合做头像,然而黄狗不符需求,计6分;
至于文心和豆包……我已经尽力从四图挑选像狗的了……计2分
•二轮最佳 GPT4-Dalle3的配色恢复了,好很多,计8分
GLM4继续稳定发挥角色理解,不过这轮的狗头有点抽象了,动作也是趴着,问题需要关注,计5分;
文心和豆包……这轮的图更难为人了……计0分。
Prompt2:《Her》中主角形象,画个波点画
GLM4:
GPT4:
文心4.0:
很抱歉,存在暂不支持的特殊符号和英文。
豆包:
抱歉,作为语言模型,我无法为你直接绘制图像。《Her》是一部2013年的电影,讲述了男主角西奥多和人工智能萨曼莎之间的爱情故事。你可以尝试在搜索引擎上输入“电影Her 主角波点画”来获取相关的图片。
本题各家都很差,GLM4和Dalle只能给绘图意图1分,对于电影、波点画等理解不够好,文心和豆包完全不能满足,0分。
本环节分数如下
4、文档解读
提炼一本教材的核心内容,来看看各家效果如何。
提问:归纳一下讲的什么内容
(附件数据来源:电工学(电工技术)第七版上册.pdf)
GLM4:
GPT4:
文心4.0:
豆包:
豆包无法上传文档,本轮不能完成任务。
受限文档长度各家解读都不完整,文心4.0只能读取前100页,而且有点学杂了;GPT4归纳比文心精炼;GLM4信息更丰富,语言精炼不啰嗦,没有错字;豆包依然因不具备能力而0分。
本环节分数如下
5、智能体
最近大火的智能体Agent能力,四个模型中有三个已经具备。
写一个拜年大全,主要衡量标准是能够自主带上当年的生肖内容。
初始界面:
GLM4:
GPT4:
豆包:
智能体配置:
GLM4:
GPT4:
豆包:
效果:
GLM4:
GPT4:
豆包:
(为对齐豆包没有配置功能,GLMs和GPTs的智能体配置自动生成后不做修改;由于豆包限制无法上传知识库,故谐音梗也不对豆包做要求)
整体效果来看,GPTs最佳,投喂谐音梗融会贯通,句式偏单一;GLMs默认生成的配置可用性有待提升,对谐音指令没有理解,品质跟豆包差不多。
GLMs配置经过手动修改后,效果提升明显,基本达到了GPTs的默认水平。
本环节最终计分排名如下:
GPTs最好,因默认配置高可用、一次过关得10分;
GLMs鉴于修改后品质有提升,得7分;
豆包因为不能改配置,效果把控还得从抽象的描述语下手优化,计6分;
文心不具备功能,不得分。
新功能效果最终得分
可以看到智谱GLM-4 各项新功能与GPT4对齐很紧凑,基础能力差距不大,但智能体水平明显落后。文心一言4.0和豆包或多或少在某些功能上有所缺失,需要补齐。
我们从日常生活、工作选了一些真实需求场景,不加辅助也没有上下文干预,直接对大模型提问,来看看它们的表现吧~
1、文本生成,让模型来句吉利话
年关将至,不论走亲访友,还是发朋友圈,都少不了顺口的祝福语。
国内大模型本地化都好过GPT4,具体表现看下图!
GLM4:
GPT4:
文心4.0:
豆包:
祝福语环节各家都有瑕疵,评判标准按整句都有压上韵、且能给到更长,各家分数如下
2、语义理解,来一轮常识快问快答~
问问用户画像?
四家能理解需求,GLM-4主动调用搜索查了资料,信息量更大,综合提高了内容置信程度,是我理想的10分回答。
其他三家显得有点泛了。
GLM4:
GPT4:
文心4.0:
豆包:
等等,还有老干妈卫衣??
惊呆了!
下一题,今年元宵节几号?
答:2024年2月24日
于模型而言有一个大坑,“今年是哪年”
本轮豆包获胜10分。
GPT4又是一通操作,拉出python算日历,“occurs 15 days after Lunar New Year”这套算法可给各位看笑了,本地化还是不行呀。
GLM4起码知道2024年,但是查不清数,GPT4和GLM4勉强得1分。
文心还是不太能理解今夕何夕,严格讲不算对,5分很勉强了。
GLM4:
GPT4:
文心4.0:
豆包:
本环节分数如下
3、数理计算,小孩嫌大人愁的数学题来了!
先请出高考客观题,众所周知模型很不擅长这些,试卷答案也不给解题步骤,所以模型没有小抄可学~
寒假期末考请听题!
开胃甜点~
问:圆C的方程是x(2)+y(2)+2x+4y=0,则其圆心坐标是 ,半径是
答:(-1,-2),
本轮全胜~
还小试了一下换了个数,避免有模型储备原题,发现还是可以正常解的,各家仍是正确结果。
GLM4:
GPT4:
文心4.0:
豆包:
再来!
问:已知正数a,b,c满足 ,则的最大值为
答:-2
GLM4与GPT4本轮平手,都满分,文心和豆包一通操作猛如虎,轮到输出嘛,0分……
GLM4:
GPT4:
文心4.0:
豆包:
高考大题!
问:设a∈R,函数f(x)=|x(2)+ax|,
(1)若f(x)在[0,1]上单调递增,求a的取值范围;
(2)记M(a)为f(x)在[0,1]上的最大值,求M(a)的最小值.
答:(1)a≥0或a≤-2;(2)最小值
本题分值:10分,第一小题回答部分答案计3分,完整计5分,第二小题5分
GLM4:
GPT4:
文心4.0:
豆包:
本环节计分排名如下:
4、代码解释,编程能力强不强,实践出真知~
用代码画一个一箭穿心
Python画心已经玩过很多了,一箭穿心如何?代码能跑出来的期望效果如下,看哪家最接近~
GLM-4对比其他家美观一些,就是这个一箭穿心跟我想得不太一样,复制代码单独跑验证一致。
GPT4起码画出了心,就是穿得很迷离,而文心和豆包的心都不知道哪去了……
GLM4:
GPT4:
文心4.0:
豆包:
本轮效果都不是很满意,跟穿心好像没啥关系
GLM4和GPT4好在还有个心,而GPT4那飘逸的穿法也让人印象深刻,GLM4明确画出了箭头元素,得6分,GPT4得5分。
文心、豆包都没达到基本效果,0分~
应用实践最终得分
综合来看,GLM-4在各个场景表现可圈可点,稳如四边形战士;不得不提文心4.0的表现真的很牛,唯一一家高考数学大题能拿下完整第一小题得分的学霸,却在代码这块翻车了;豆包的常识查询目前最好,“今年”这个陷阱优雅的越过;GPT4虽说是最强大模型,但多少还是有点水土不服,高昂的价格加上国内使用限制,目前来看用户也许有了新选择……
智谱的GLM-4表现可以说可圈可点,作为1月刚更新的新模型,我们特地拿它和3个月前发布的,目前依旧在产品端上线中的GLM-3做了个对比,也算是让大家直观感受到国产大模型的进步速度吧!
1、文本生成
上面试了祝福语,在这写点小情书吧~
上一代模型GLM-3 给了一大段,情绪表达相当直接。
在GLM-4上,能选的句子更多,量大管饱多场景,兄弟你成长了很多嘛~
GLM3:
GLM4:
2、语义理解
问题1:车厘子Santina是杂交品种么,原产地是哪里
车厘子成为了近两年的新年货,看看模型是否了解品种知识
上一代模型GLM-3的知识库显然没有存储车厘子品种的信息,对Santina的培育情况并不了解,还是按欧洲甜樱桃来回复、
GLM-4 主动联网查询,获得了正确结果,信息量很大。
GLM3:
GLM4:
再来一题:"I firmly believe that respect is a lot more important, and a lot greater, than popularity",帮我搜一下这句是谁的名言?
GLM-3 回答了艾森豪威尔,经验证是错误的,还是有点幻觉在;
GLM-4 厉害很多,又是联网功能加了分。
GLM3:
GLM4:
3、数理计算
继续上数学大题~
记 ABC 的内角 A,B,C 的对边分别为 a,b,c,已知
(1)若,求 B;(2)求的最小值.
上一代模型GLM-3 对三角函数还是不太擅长,两道小题都没能答对;
GLM-4 完成了第一小题,结合前面各家横评,看来数学大题的第二小题始终是大模型的难关!
GLM3:
GLM4:
数学算累了,来点化学题换换脑子
问:足量铜与一定量浓硝酸反应,得到硝酸铜溶液和NO2、N2O4、NO的混合气体,这些气体与1.68L O2(标准状况)混合后通入水中,所有气体完全被水吸收生成硝酸。若向所得硝酸铜溶液中加入5 mol/L NaOH溶液至Cu2+恰好完全沉淀,则消耗NaOH溶液的体积是( )
(A)60 mL (B)45 mL (C)30 mL (D)15 mL
答:A
上一代模型GLM-3 给了一连串的解题步骤,结果还是算错了;
GLM-4 解题调用了Python计算,解题思路清晰,确实做到了提升。
GLM3:
GLM4:
4、代码解释
继续试一下一箭穿心~
上一代模型GLM-3不能在界面内模拟,自我纠错给了两版代码实际验证都不是需求图形;
GLM-4对比美观太多,穿心马马虎虎有个箭尾,好在复制代码单独跑效果也是一样的。
GLM3:
GLM4:
换个新玩法,代码画一个能走的时钟
用Turtle画一个带显示星期功能,能按当前时间动的时钟
期望效果如下,显示能动的表盘动画
很尴尬,上一代模型GLM-3 把需求识别成普通的画图了;
GLM-4 受限无法直接运行Turtle图形库,给出的代码跑了一下,真不错。
GLM3:
GLM4:
小结:对比上一代模型,从这些基础能力能看得出 GLM4 下了不少功夫,各方面均提升显著。考虑到是三个月迭代的,这个速度也让人印象很深刻了。
五、结论
综合来看,GLM-4表现可圈可点,全面对标GPT的功能布局,可以用六边形战士来形容;豆包语义理解最强,更适用在生活化问答场景;文心虽然在代码生成解释环节输掉,整体实力不容小觑;GPT4的整体实力非常强,但应付国内的生产生活场景,还是有点吃力。
GLM-4的新功能中,让我印象深刻、帮助最大的,当属“数据分析”,对比同功能的GPT分析效果一致;还可以调教智能体,不会编程也能轻松拥有专属大模型;联网查询帮助也很大,实际体验效果不凡。对比智谱AI上一代模型,GLM-4的各项基础模型能力做到了全面强化,进步明显,在“数理计算”和“代码生成”有质的提升。
在我们之前的认知里,ChatGPT都是绝对的王者,当我们亲自体验它时,却发现在本地化表现并没有达到高预期,对于中文普通用户而言,我们使用ChatGPT仍有不小的门槛,“大模型元年”竞争如此激烈,在认清差距、努力提升之余,不知道国产大模型交上的这份答卷,是否也合你的心意?
文章来自微信公众号 “ 硅星人Pro ”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0