横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?
8565点击    2026-05-30 15:26

横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


最近大模型更新真的有点密,更了好多但是却不知道到底谁好用。


有说 Qwen3.7-Max 已经力压 GPT-5.5,仅次于Claude 系列。


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


也有说 GPT-5.5 已经登顶。


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?


我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次横评,看看它们在真实任务里的交付表现。


案例实测


本次测评我们用同一份材料、同一条提示词、同一套评分标准,分别丢给四个模型,主要包含长文档处理、任务规划、代码修复、中文写作、数据分析、格式遵循、SVG 生成这七项常见任务类型。


  • 案例1:长文档精读


这个 case 测的是:模型是不是真的读懂材料,而不是看见几个关键词就开始发挥


适合测试报告、会议纪要、投研材料、产品文档。


任务:


1. 用 200 字以内总结材料核心结论。


2. 提取 5 条最重要事实,每条标注原文依据。


3. 找出 3 个不确定点或数据缺口。


4. 判断作者结论是否被材料充分支持,给出“支持/部分支持/不支持”。


5. 输出表格:结论、证据、风险、建议继续追问的问题。


要求:


- 材料没有提到的内容,写“材料未说明”。


- 不要编造。


- 不要输出思考过程。


材料如下:


SU7上市一年两个月,我们累计交付超过了25.8万辆。在上个月的话我们交付了2.8万辆,这个数字的话,在20万以上的所有车型中,这一款车成为了销量冠军。下面的话我为大家发布小米YU7,这是小米首款SUV。大家问的问题,第一个问题是YU7怎么命名?YU7这样命名:御风而行。这4个字来自于庄子的逍遥游,就是驾着风飞行,这个寓意特别好,所以叫YU7。 那么YU7定位成豪华高性能SUV,这就意味着YU7不是一辆普通的平庸的SUV,这是一款精心设计的豪华高性能的SUV,它具有优雅的造型,驾驶的愉悦感,同时还有空间的舒适度和豪华体验。造型我们来看一眼造型,它跟小米SU7一样,家族化的设计语言,但绝对不是SU7的简单拉高版,我们在SU7的基础上重新设计的,它优雅的设计风格,线条流畅且富有力量感。我们再来看一下它独特的豪车气质不同凡响,还有跑车般的驾控体验,人、车、合一。说句实话,在这个价位这样好看的SUV是非常罕见的。我们先看一下亮相视频。我们YU7的话车长5米,轴距三米,车宽两米,像这样的尺寸是一款中大型的SUV,虽然外观看起来非常紧凑,而实际的空间因为它是一款中大型的SUV,所以实际空间是非常大的。我们仔细来看一下,它的侧面低趴优雅,极具运动感,然后尾部肌肉感十足,非常有力量。俯视的话它的型面很立体,而且特别的饱满。好看吗?我想跟大家分享一下,我们这么好开一辆车是怎么做出来的。首先美首先来自于比例,其实比例好看,这个车才能好看。就像身材好看这个人才会好看。我们来看一下,它好看的本质来自于三倍的轮轴比,2.1倍的轮高比,1.25倍的宽高比。同时它还有1.3倍的轮身比,它修长的车头,这是百年汽车工业沉淀下来的豪华设计,而且他从后视角看,极具肌肉感,自带宽体,还可以选配275毫米的后轮的宽胎,所以它整个特别特别有力量感。第二的话美还来自于细节。首先我们来看一下这水滴大灯,从功能上讲支持了180度的超广角的照明,有很好的夜间视野。你仔细看的话,你发现它上半部分是镂空的,然后嵌入风道,跟前舱盖打通,这是百万跑车才有的设计,然后光环尾灯也升级了,更适合SUV的造型,更加的简洁立体,更有力量感。在夜间的车流里面也格外醒目。我们刚刚发布的时候大家有点不习惯,当你看习惯,你会觉得这个尾灯特别的好看。还有门把手,我们发布以后,很多人都问我们说SU7的半隐藏门把手是挺好的,你们这怎么用?就退步了?其实没有。这是一个变动的内翻门把手,当你一靠近门把手就自动内翻了,当你离车或者坐到车里,他又回来了,这样的话它既好看风阻又小,我们来看一眼,人一走近,它就自动弹开,然后当你坐到车里面以后,它又自动关闭,它是自电动的内翻的这种设计。而且在空气动力学方面的话,10组贯穿的风道,19个风口在梳理全车的气流。我们来看一些细节,像主动进气格栅,100档的智能开合,降低了18个count,相当于增加了14公里的续航。尾部的扰流板我们改了100版,降低了10个count。还有超大超帅的蚌式大机盖,一体式设计降低了两个count,所以我们改了多少个细节,改了40多处的风阻优化,像这么一款运动型的SUV,我们的风阻系数做到了0.245, 在运动型的SUV里面表现是非常突出的,它相当于续航增加了59公里。颜色还有美来自于色彩,SUV的型面更饱满更立体,我们在大自然里面寻找有生命力的色彩,这样在光线的折射下,它的变化更加的丰富,也更加的好看。今天我们给大家介绍的第一款颜色是什么呢?是宝石绿,这是一款高饱和度的颜色。我首先给大家介绍一下,这个高饱和度的颜色以前都是有跑车做,为什么?为什么你在大街上看到都是黑的白的灰的?因为这三种颜色又好看又便宜,主要是便宜。高饱和颜色贵在什么地方?各位想一想,这些车要在户外,风吹雨打,太阳晒,要10年20年不变色,大家想一想这个做高饱和的颜色有多复杂?所以每研发一款颜色往往的周期都是13个月,周期特别长,所以这个颜色绝对不是我们在电脑调色板里改一下出来的,还是一个很复杂的研发过程。所以也只有做超跑的人才,愿意花那么多时间做那么漂亮的颜色,投那么高的成本。大家还记得SU7的海湾蓝其实也很好看,也是高饱和度的,所以我们在做这些车的时候,特别愿意给大家推荐一些特别好看的颜色。同时我要给大家讲的是什么?这一款宝石绿,它的灵感来自于哥伦比亚的绿宝石,它的颜色饱和鲜艳,它有不可比拟的翠绿的色泽,晶莹剔透的质感,在光线下熠熠生辉。那么为了更好的还原绿宝石的质感,我们这是在工艺上采用了双层色漆的工艺,这个双层的设计,色漆的工艺是怎么做的?光色罐用了三套,像外表面我们先喷一层黄绿色的金属漆,再喷一层透明的珠光漆,在内表面我们喷的是金属漆和珠光漆的混合漆,就喷成一个颜色要三个罐子喷,其他的颜色简单的都是用一个罐就行了,所以成本比一般的颜色贵了两倍以上,然后所以做起来比他想象的要困难。这款颜色在阳光下看的时候特别好看,我们来看一下。在不同角度下欣赏宝石绿的话,它看着就像宝石一样,光在斜面上流转,印在漆面上流动特别好看。我们在竹林也拍了一组也很好看。今天的话我们也给大家介绍第二款颜色叫钛金属色,彰显豪华低调。在漆面里面我们加入了粗颗粒的铝粉,让漆面具备金属独特的力量感。特别好看。同时的话我还做了一款极为炸裂的颜色,熔岩橙,我特别喜欢这款颜色,但是我认为SUV的型面更立体,更有质感和冲击力。所以的话特别适合激情澎湃的年轻人,我也特别喜欢。所以也适合像我这样的年轻人。我们来看一下很漂亮。加上上次的寒武岩灰,整个YU7我们已经给大家介绍了4款颜色,后面还有5款,下次发布会再给大家慢慢介绍,都挺好看的。天际屏我们来看一下它的内饰怎么样?现在大家静静的看一会,是不是有点像航空舱的感觉?然后我们的整个交互系统增加了小米天际屏的全景显示,那么后排的控制屏带来了全新的视觉体验。我们仔细看一下,这就是我们的天际屏。交互有趣。各位仔细看,它不是一个简单的屏幕,它是一个集成了先进技术的高端投影,它有三块mini的屏幕,通过全景曲面投影技术,反投到前风挡下的黑区,形成了1.1米超宽的显示,而且显示精度的话,也是超视网膜的高清显示,所以特别好看,它是一个全景的曲面投影技术,它不是简单在那做了一块屏,而且我们的交互系统也特别好用,符合直觉。像开车的时候,时速导航这些信息一眼就能看清楚。这个副驾还可以显示音乐卡片,转向的时候盲区影像就直接显示了,一转向盲区影像就直接显示了很方便,然后辅助驾驶的时候自动切换成SR的路况信息,切换驾驶模式的时候还可以显示动力空悬等信息。我们提供了5类的信息卡片,大家还可以自动的组合,好像这样先进的技术。内饰我们的内饰不仅有科技感,还有豪华感,我们采用了双区环绕的设计,它的型面简洁饱满,仪表台很薄,视野特别通透,用料也特别的豪华,人接触的地方100%软包覆的,而且我们的材料还是婴儿可以直接接触的这种材料,获得了国际的一级认证,所以整个材料触感都特别好,这个空间也特别大,前排的空间,我们用的1.88米的假人,当你坐进去的时候,头顶空间还有100毫米,这个比Model Y和保时捷卡宴都要大不少。而且座椅的风格,这一次我们调的是豪华舒适型的,因为SU7我们调的偏硬,偏运动型的偏路感型的,YU7偏豪华型的。我们还搭载了零重力座椅,通过把腿部和靠背的角度调整成120多度,科学分配身体的压力,来提升乘坐的舒适感。而且我们还配了10点式的按摩,特别适合停车的时候休息一下,或者中午在车里睡个午觉什么的。我们的主驾的零重力座椅有12层结构,更厚、更软、更有支撑力。其中零压感的海绵让短途乘坐更舒服,高密度的记忆海绵,它的支撑力好久坐不累,而且全车的座椅都是Nappa真皮包覆,它的触感极其的细腻。谈到零重力座椅,也是这几年,我们国家的新能源汽车卷起来了,豪车都还没开始卷,我们已经全卷进零重力座椅了。大家用零重力座椅的时候往往都是放在后排或者副驾,而我们的车放在前排,因为我们发现很多人开车的时候在车上休息,都习惯坐在主驾位上,所以这一次我们特别设计了前排主副驾都是零重力座椅,欢迎大家到店体验。这不是一辆MPV,这是一辆自己开的车,所以主驾我们一定要设计的特别舒服。像这样的设计其实在SUV里是很少见的,一般放后排或者副驾。我们在想这个车是你不想开的舒服一点吗?所以我们的虽然是运动的姿态,但是我们的内部空间有惊喜。比如说后排依然是1米88的假人,头部空间有77毫米,膝部空间73毫米,都比Model Y和保时捷卡宴好,所以大家完全不用担心。后排的座椅,也是同级一流的可坐可躺,电动无级调节能调35度的范围,他们说堪比豪车的座椅的舒服度,我就不跟哪个豪车比了。我们的内饰有三种颜色,有松石灰,它是绿灰双色的,有珊瑚橙,还有慕尼黑蓝,有三种颜色。空间谈到这里我们再看看储物空间,首先我要给大家推荐的是蚌式前机盖,超大。听我的同事介绍这是量产车里最大规模的,它的面积有3.11平方米,做到了无缝缝,这对制造要求是很高的,跟整车的型面浑然一体,非常的漂亮。而且这个是一个电动的,前机盖打开以后里面有141升的超大前备箱,然后整车的储物容积有1970升,非常的大。我们把大家常用的场景也捋了一下,比如说两个人去郊外骑行,带两辆自行车和行李,周末咱们去滑雪,三套滑雪板带行李,或者自驾游带很多的箱子和行李,都可以搞得定。设计所以聊到这里的话,我还要最后聊一聊YU7的设计理念,它完全遵循了我们小米汽车的设计理念,就是回归设计的本质,寻找符合直觉的美,符合自然的美。用一句话总结就是做经得起时间考验的设计。下面的话我们请我们的首席设计师李田原通过视频方式给大家介绍一下。(播放设计师李田原视频)“如果给你一张白纸,不管多少年过去了,多少款车过去,依然能够画出小米汽车的家族符号,这些符号是属于这台车的,它也属于时间。我们SU7开发了10个月后就开始做YU7的开发,当时有过一段挣扎,必须需要做的很熟悉一样,还是说要走上一个完全不同的方向,最终的答案很清晰,YU7必须属于这个家族,但他也必须有自己的个性。谁知这一切从比例开始,比例是汽车设计的灵魂,我们希望它能够继承SU7的运动调性,有流畅的车身,稳健的姿态,但在力量表达上应该有自己的方式,SUV的厚重感其实也可以转化成一种优雅的张力,科技可以一直在变,但自然的规律是不会变的。水滴大灯融合了风道的设计,风道贯穿整车顺势导流,尾部镂空扰流板,让气流分离得更加干净彻底,灯始终是最重要的家族符号,简单提取了粗细的轮廓线,并且它集成了一横两点的关键符号。新款尾灯用更强的转折撑起了更有力量的双线。当你坐进车内,你触摸到的、看到了、听到的都刚刚好,符合你的直觉,他很有共鸣感是始终存在的,所以我会觉得YU7它不只是一台车,他也是家族的一员是延续和进化,是一种能够经得住时间考验的存在,这就是小米YU7的设计。也是小米汽车设计的信念。喜欢我们小米汽车的设计吗?”性能好,YU7作为一款豪华高性能的SUV,下面我们聊一聊性能,它的性能也非常的出色,它的零百的加速3.23秒,它的最大马力690匹,它的最高时速253公里每小时,这台SUV里是非常出色的,我们比一下像Model Y的性能版,Performance的版本它的零百是3.7秒,像迈凯伦Artura这款96.8万的将近100万的车,它的零百是3.3秒,YU7的顶配是3.23秒,所以这个成绩在SUV里是非常出色的。那么这么好的性能,它背后是强大的电机,小米超级电机V6S的Plus,这个是在V6S的基础上,转速提升到22,000转,它的扭矩和功率也升级了,性能变得更好。同时它有豪华的底盘配置,兼顾了运动和舒适性。然后整车的标配了连续阻尼的可变减震器,精准匹配的路况需求,快速的调节阻尼力,能够适应山路,城市高架和烂路各种各样复杂的工况,然后还有闭式的双腔空悬,它有5档的高度调节,最大的调节范围达到75毫米,最高的离地间隙达到了222毫米,而且它可以快速调节空悬的刚度,最大的高低刚度差超过了40%,在保持路感的同时可以做到更加的舒适。所以我们整个底盘系统是极其豪华的配置,它的制动能力同样很出色,从100公里每小时杀到0,最短的制动距离33.9米,这个和保时捷911相当,这是百万跑车级的制动能力,而且还提供了四重制动冗余的安全机制,带来了更稳定更安全的制动能力。我们总结一下,这个YU7有三个版本,和Model Y的版型是一样的,有单电机的后驱版,也有双电机的四驱版和高性能四驱版三个版本。它的性能都非常好,都有HyperEngine Plus的小米超级电机,那么Max的零百达到了3.23秒,在SUV里非常强大,而且全系标配的固定卡钳和四重冗余的刹车安全系统,它的底盘都很好,都标配了连续阻尼的可变减震器。所以大家仔细看看你需要哪一档的动力,平时家用的话这个后驱版挺好的,如果预算还可以的话直接上顶配,它的性能很好,当然了Pro版的话也相当不错,还有连续阻尼的减震器也有空悬,而且又是四驱,它的通过性和脱困性,包括性能都很不错。所以这张图片给大家拍下来可以仔细看一下,就关于我们的动力版型跟Model Y的设置是完全一样的。续航续航这一款纯电的SUV来说,续航尤其重要,因为开SUV大家都经常愿意跑远路,但是从汽车研发的角度上来说,续航是最贵的配置,所以看车贵不贵先看续航。因为电池包特别贵,电池包装的整车成本40%上下,所以续航是最贵的配置。大家知道YU7的标准版的续航有多少吗?大家冷静看一下,835公里,这是标准版的续航。因为续航能力我的同事们做了很多的比较,它是所有中大型纯电SUV的续航第一,哪怕你拥有更大的电池包,也未必比我们跑得远。因为有时候电池包太大以后它也变得更重,而且续航除了电池包以外,它还跟很多因素相关,我们可以比一下。你比如说极氪001开100度电跑700公里,智己LS7 111度电跑742公里,所以我们要找到一个最佳的平衡,做了835公里,那么835公里我们搭配的是多大的电池?我们起步就是96.3度电,将近100度电,我们起步就是将近100度电的大电池包,成本非常的贵。大家知道我们有三个版本,我们看一下四驱的纯电续航,因为往往动力越大续航会越差,因为它跑得快它是需要消耗更多的动力的。我们来看一下,你会发现我们四驱的纯电SUV的续航也不错,能做多少?770公里。它也是四驱纯电SUV的续航冠军。Model Y的四驱它的续航是多少?它的续航是719公里,他们其实已经做得很好了,我们是770。所以我还是要再画一次重点,哪怕是四驱的SUVYU7依然是续航第一。所以我总结一下,我们三个版本全部都是大电池,全系都是超长续航,而且全系800伏碳化硅的高压平台,而且我们的Max版还是5.2C的充电,15分钟能最大补能620公里,所以充电的效率也非常的快。我们简单的比一下充电 Model Y大概是10%~80%需要27分钟,极氪001是21分钟,我们12分钟,所以我们的充电效率是非常快的。这就是我们三个版本的电池续航和充电效率。你看标准版835公里96.3度电的天理铁锂电池,Pro版是770公里96.3度的铁锂,Max版是101.7度电的三元锂760公里,但是它主要是为了更高的性能和更强大的动力,所以YU7的这款纯电SUV具备超强的产品力,全系大电池包全系超长续航,全系800伏的高压,所以这些都是很顶的配置。安全所以聊到这里,聊到这里,我想跟大家说,YU7之所以如此的强大,背后有非常多的创新技术。今天的时间很短,我就给大家讲三点。第一个,YU7也采用的是Modena的技术架构跟SU7一样,我们在继承了SU7的优势上做了大幅度的修改和增强。比如说铠甲笼式车身全面升级,全面升级以后内容很多,我讲三点,第一点,我们长车头带来的这个车头的吸能空间,你碰撞的时候有个吸能快速的吸能空间,我们做到了659毫米,然后比Model Y多了100毫米的吸能空间,能够承受更大的溃缩率。第二个底部我们增加了1500兆帕的横梁,用来降低电池包经常遇到石子刮坏的可能性,增加了一个1500兆帕的横梁。第三点,我们电池包底部也用了OTA同款的防弹涂层来进一步保护电池包的安全。还有一个最重要的,我们SU7他用了2000兆帕的潜艇钢,这一次我们YU7用了2200兆帕的小米超强钢,这是目前量产的最高强度的热成型钢。好,它强在什么地方?我们用在什么地方?首先我们用在侧横梁上,就是4门的防撞梁,因为有时候侧撞的时候,乘员舱侧撞的时候离乘客很近,一直是被动安全的难点。我们这次用了2200兆帕用在4门的防撞梁上,前门的承载能力提升了50%,后门的承载能力提高了37%,有效的提升了侧碰的安全性。所以这个材料科技非常重要。第二个,我们在A柱B柱里面用了6根热成型管,也是2200兆帕的小米超强钢,能跟车身配合在一起,形成了一个防滚架的模型,这就是我们借鉴的防滚架的原理。它能够在应付恶劣的场景下,更好地保护乘员舱的结构。大家了解A柱和B柱,这里面装了6根热成型管,形成了一个内嵌式的防滚架的结构。有什么好处?我们来看一下。A柱的承载力提升35%,B柱提升了70.5%,所以它的强度得以大规模的提升。那么这是怎么做到的呢?我们的工艺用了一种叫热气胀工艺,就用高压气体,像吹气球一样,把2200兆帕的材料在模具里面吹成你所需要的形状,然后嵌入到A柱和B柱里,这个技术还是蛮难的。这么高强度的钢材要吹成这个形状,用的热气胀的工艺。这个材料的话是和大学的科研团队合作研发的,所以材料科技非常关键。那么超强钢有多强呢?我让同事们做了个实验,用251公斤的金属球去撞击这个防撞梁,我们原来的防撞梁就是1500兆帕的,换成2200兆帕的时候我们看一下,我们就可以用这么大一个铁球250多公斤去砸防撞梁,1500的已经裂开了,2200兆帕的没事。所以我们笼式车身的话,铠甲笼式车身的话,高强度钢和铝合金的占比达到了90.2%,车身的扭转刚度超过了47,000牛米每度,在SUV里面是表现极其不错的。然后全场景的被动安全的性能测试多达50多项,完全覆盖了CNCAP和中保研的所有的碰撞测试。所以我们在过去我们的SU7的产品里,在所有的权威机构的碰撞测试里面,我们都拿到了最高分。电子电器架构下面我们讲第二项技术,电子电气架构,因为智能电动汽车智能占的比例越来越高,而且也越来越复杂。这也是我跟大家讲为什么小米造车优势之所在,就是我们做电子已经做了15年,我们给大家介绍一个我们的自研的产品叫什么?叫四合一的控制器,这就是把汽车里面的辅助驾驶域、智能座舱域、整车控制域和通讯模块4个盒子全部合并在一起,高度集成,它相当于几十个功能合在一起了,相当于一个中央大脑,你可以把它理解成一个小服务器。原来在车里就是搞了一堆的盒子,把它全部集成在一起了。那么原来或者今天的主流的结构是怎么样的?我专门买了一套,就是搞了一堆盒子,这就是我们的四合一的。所以一比你就知道它首先一个特点,它的体积大规模缩小了,而且它减重,它从原来的5公斤降低到3.6公斤,而且把域全部合并以后,它的能效大幅的优化,通讯性能也大幅度提高,而且控制器的数量也大幅度减少。我举一个小例子,比如说哨兵模式,原来哨兵模式为什么耗电,它跨好多个月才能把视频内容上传云端,你才能看得到在手机上。现在的话它的通讯链路被极大的精简,它都是在一个域就完成了,视频信号两步就可以上传云端,整个功耗降低了40%,所以整个四合一带来的好处是非常之多的。而且的话我们的座舱的SOC用了第三代骁龙8的移动平台,4纳米的平台,像高算力的旗舰平台,然后系统极其流畅,所以我们的整个车开机快,应用启动快,OTA升级也快,最快15分钟就能完成OTA。这可能是行业今天最快的OTA。比如说有的车一升级需要一两个小时,所以升级很慢。第二个的话就是四合一控制器,它的辅助驾驶模块的算力也很恐怖,它是搭载了最新的NVIDIA DRIVE Thor平台4纳米的先进工艺,700 TOPS的算力是极其惊人的,而且还有先进的通讯技术,有双5G的并行通讯网络,UWB的近场通讯,还有WiFi7,你在车里玩手机连接车内热点的时候可以提速超过80%,所以把最新的科技全部用了一遍。而且我们新一代的电子电气架构经过了非常严苛的可靠性测试,耐久测试采用的是行业标准两倍以上的标准进行严格测试的。所以这是我刚才介绍的第二项技术:四合一的控制器。辅助驾驶第三项是小米辅助驾驶,这一次我们全套硬件都是高端配置,我简单给大家介绍一下,算力是700 TOPS的,这是英伟达最先进的和最新的专为大模型时代而生的。我们搭载的激光雷达也是全球首批第二个,它的探测距离达到200米,进一步提高了辅助驾驶的安全性。在暗光环境下,在异形障碍物的识别里面,激光雷达有明显的优势,还有4D毫米波雷达,它的分辨度和识别距离都提升了。在一些复杂的场景,比如说跟车当前车急刹车的时候,它有更好的预警能力,在雨天雾天恶劣天气的时候,即使肉眼看不见的时候,也能更好地感知交通状态。所以有4D毫米波雷达,哪怕摄像头我们也应用了我们手机相机的技术,做了LMR的镀膜,能更好的抑制逆光眩光产生的视觉干扰,整个画质更加清晰透彻。全套的硬件都是非常高端的,包括700多个TOPS算力,激光雷达,4D毫米波雷达,11个高清摄像头,还有其中7个做了LMR镀膜,还有12个超声波雷达,那么这一套配置进一步提高了安全性,而且成本也非常贵。为了进一步提高辅助驾驶的体验,我们全系标配,所以我们的入门版就是带激光雷达,带4D毫米波雷达,带700 TOPS的算力的,全是今天最高端的配置之一。配置讲到这里,这就是我们今天给大家介绍的YU7。我简单的总结一下,作为一台豪华高性能的SUV,全系标配了非常强大的配置。第一个全部标配的大电池超长续航,全部标配了全景小米天际屏全景显示,全系标配了700 TOPS的算力,全系标配了激光雷达,全系标配了连续阻尼可变减震器,就是超豪华的底盘。我们再看一眼,它有三个版型,标准版续航835公里,然后96.3度电,带激光雷达,700多TOPS的算力,包括连续阻尼减振器,像这样的配置拿出来,可能是其他公司的车型里面的Pro版,还是Max?还是Ultra。我们在内部也反复讨论说,我们要不也跟大家对齐叫Max版。其实在这个讨论里面,我还是希望我们小米保持真诚,它就叫标准版好吗?只不过是我们的标准版是超大杯的,大家理解了吗?来我们看Pro版增加了什么?最重要的是增加了双电机四驱,双腔空簧,就是它的动力通过性脱困能力大幅度提升了。大家理解了吧?Max它是高性能四驱,它全部是顶配,有非常多豪华配置,我今天就不展开讲了。为了让大家加深印象,我们比一下Model Y。为什么比Model Y?因为反正Model Y打遍天下没敌手,Model Y是全球销冠很厉害。因为Model Y也是三个型号,我们就一个型号,对一下,让大家建立一个印象,我们来看一下全球销冠Model Y的标准版就是他所谓的后驱版。YU7零百是5.88秒,它是5.9秒,这两家的动力差不多。而我们用了96.3度电,835公里的续航,他们只有62.5度电,590公里的续航,大家知道差了多少吗?差了34度电,差了340多公里的续航,好像高了好几个档次,各位简单算一下,贵了好几万。第二个YU7还标配了天际屏激光雷达连续阻尼可变减震器800伏,还有各种各样我还没有讲的豪华配置,反正Model Y定价26.35万,我觉得YU7看这些配置至少应该贵个六七万,具体的价钱等我们7月份发布的时候再讲好吗?但是我看到网上有很多人出来说雷总肯定定个199,000,不要这么讲不可能的好吧?这个配置Model Y没有三十几万,绝对下不了台的。好,我们再来看一下Pro版对它的长续航全轮驱动。它们的动力依然差不多,但是他们的电池只有78度电,我们是96度电,差了18度电,续航多了50公里,更重要的我们还配了空悬,所以配置也比他们强很多。那么他们的性能版Model Y的性能版也是78度电,我们101.7度电,它的性能版只有615公里的续航,我们760。动力,续航豪华配置,我觉得我们的Max版是真的非常领先,具备压倒性优势。好说到这里的话,我们的YU7的发布就快结束了,YU7将于7月份正式上市。如果大家特别关心YU7的话,现在就下载小米汽车的APP,可以提前预约咨询,展车我们马上就陆续到店,等到店以后,我们的产品专家会邀请大家到店体验。好吗?我曾经也想向同行学习搞个小订,但是今天我们的操盘手担心太折腾大家了,所以我们就不搞小订了。如果你们有兴趣,欢迎大家在小米汽车APP里面留下联系方式,我们的产品专家会联系你好吗?好,下面就进入最重要的环节,用热烈的掌声欢迎YU7上台。(YU7SUV亮相)好看吗?是不是太漂亮了?大家欣赏一下我们的宝石绿很漂亮。首先我们看一下它的大灯非常的漂亮,上半部分是镂空的,前盖还是蚌式的铝制大机盖,而且风道是跟前舱盖连通的。然后我们来看一下,整个车的姿态非常的低趴,很有力量感很有冲劲,而且也是黄色的卡钳固钳,整个颜色在灯光下熠熠生辉非常的漂亮。聊到这里的话,我还有一个小的消息,我们1:18的核心车模已经上架,它的4门两盖都可以打开,做工非常的精致,其实我们的车模比车还难抢。定价多少钱?599,有宝石绿和钛金属两款颜色,还有礼盒版和至尊版,想要的朋友现在就可以开始买了。我还给大家推荐一下我们小米金驾的高阶驾驶培训课程。4年前我刚刚开始做车的时候,我们就给所有的高管安排了一次驾驶培训,其实参加完这次培训以后,我发现我开了30多年车,原来我还是不太会开车,因为我从来没有一脚踩死过刹车,我们以前学车的时候大家都叫你点刹,其实遇到紧急状况最好是一脚踩死。可是当你所以那一次我们学了一脚地板油,一脚刹车紧急变线,我觉得这些能力提高以后使我重新开始认知怎么开车。所以我们专门设计把我们内部的课程拿出来,想希望更多的车主学习这些高阶驾驶技巧,就是从理论到实践来提高驾驶能力,比如说加速、制动、紧急变线练习。比如说你能不能一脚刹车刹停在锥桶前面,你能不能在最短的时间加速到一定的速度,而且你应该怎么学习变线。第二个课程叫绕桩练习,你怎么躲人躲东西,然后怎么绕桩。然后第三个训练就是低附路面的驾驶培训,比如说下雨天下雪天冰面路滑,应该怎么开车?所以为什么我们这一次在YU7的三个版型里面专门增加了两款四驱(原来SU7只有一款四驱),主要是脱困性能,就是在低附路面上的脱困。除了这三个培训以外,为了提升课程的有趣性,我还让他们提供了金卡纳的练习。金卡娜就是用很多锥桶来摆线路的一种小型场地障碍赛,就是你要用加减速,连续变向过弯等技巧快速的跑完全程,然后在这种比赛的环境里面提高你对极限状况的响应,来提高你的驾驶能力,学完以后会非常有帮助。这段时间我都在考察各种各样的培训项目,但是这类的培训其实同行也有,定价都非常的贵,它的成本也特别贵,所以后来我们定价1999,这个5月27号开启报名,在多个城市陆续开始培训。首先面向小米的车主,还有锁单的准车主。当然我们的团队已经做了精心的准备,我依然担心他们的经验不足,所以我为这个培训也会提供一个特别的优惠,来邀请一些车主帮我们测试。那么这个优惠幅度有多大呢?首批的1万人全部免费。所以如果大家有兴趣的话,在5月27号开始报名,因为车教练场地都是我们提供的,然后我们也会跟大家从理论到实践来,教大家怎么把车开好,怎么了解车的边界,好吗?如果我们这个培训课程有什么需要改进的,随时希望大家在社区里给我们提意见,我们会把这些课程改得越来越好,好吗?到这里的话,我们的YU7的发布就要结束了。我想跟大家聊聊YU7是为谁设计的?我觉得这个问题蛮重要的。其实我在设计YU7的时候我们思考非常多,这辆车我们做了三年多时间,我们是为哪些人设计的呢?我们是为那些不能容忍平庸的人设计的,是为那些始终走在时代前列的人设计的,就是无法容忍平庸,所以我们希望做一个有性格有态度的车。那么这些人他们是一个什么样子的人呢?我用几段话来描述一下,他们经历风雨,依然对生活充满热情,他们乐观豁达,始终保持着自信进取的个性。还有无论世界如何纷繁,他们都能做到从容不迫,举重若轻。我们的YU7就是为那些先进的时代精英打造的先进的SUV。今年是小米15周年,我想和大家分享一句我特别喜欢的话,我曾经5年前引用过,叫疾风知劲草,路遥知马力。今天的小米肯定有很多不完美的地方,肯定有很多不如意的地方。在下个5年,我们承诺大家,我们会用更坚实的成长来交出一份更好的答卷。好,今天的发布会到此结束,谢谢大家!


材料我用的是雷总小米 YU7 上市发布会演讲稿,接下来分别看看四个模型的交付。


Claude Opus 4.8:


Claude Opus 4.8 事实选择很核心,价格、续航、智驾、安全、测试口径这些关键缺口都抓到了。表格也完整,基本就是研究助理级交付。


Gemini 3.5 Flash:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Gemini 3.5 Flash 的总结把价格未定、颜色未披露、Pro 版数据不全,这几个缺口抓到了。


但它的问题是“ 5 条最重要事实”选得不够好,都不是关键信息,对产品信息的核心判断不够准确


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5 把文档读的很透,指出“压倒性优势”“续航第一”等强结论缺少独立测试、完整价格和明确口径。


但5 条事实偏基础,没抓住关键。


Qwen3.7-Max:


Qwen3.7-Max 核心信息抓的很好,但它有两个地方要扣分。


“835km 续航起”这个说法不严谨,容易让人误解成最低续航 835km。


发布会暗示写得太确定,比如“定价将显著高于 Model Y”“30 万+”,材料里确实暗示不便宜,但最终价格未公布。


这轮长文档精读,Claude Opus 4.8> GPT-5.5> Qwen 3.7-Max > Gemini 3.5 Flash。


  • 案例2:任务规划


现在很多模型都在强调任务规划能力。


但任务规划能力能不能用,还是得看它能不能把任务拆清楚


你是一个可调用工具的 Agent,但现在只需要输出计划,不要真的执行。


可用工具:


- search_web(query)


- open_url(url)


- read_file(path)


- write_file(path, content)


- create_spreadsheet(name, rows)


- send_email(to, subject, body)


用户目标:


我下周要去东京出差 4 天,需要你帮我做一份行程方案,包括航班建议、酒店区域、每天日程、预算表、风险提醒,并最后生成一封发给同事的确认邮件草稿。


请输出:


1. 如何拆解任务。


2. 每一步要调用什么工具,参数是什么。


3. 哪些信息必须先向用户确认。


4. 如果搜索结果冲突,如何处理。


5. 最终交付物清单。


输出格式必须是 JSON,不要 Markdown。


▲上下滑动查看全文


分别看看四个模型的交付。


Claude Opus 4.8:


Claude Opus 4.8 流程规划的很完整,也知道先确认信息、不直接发邮件。


但它预算里写了“酒店 x 4 晚”,4 天出差通常是 3 晚。


Gemini 3.5 Flash:


Gemini 3.5 Flash 完成了基本要求,但没有做核验,信息确认项偏少,会很影响真实出差方案。


GPT-5.5:


GPT-5.5 最好的地方是注意到了当前日期,Agent 做日程类任务,最容易翻车的就是相对时间。


基础的 search,核验;预算表、行程文档、邮件草稿;发送确认也都有


但没有像 Claude 那样把预算项目拆分的更具体。


Qwen3.7-Max:


Qwen3.7-Max 第一步就开始搜“东京商务出差推荐酒店区域”,但还没确认会议地点、出发城市、日期、预算。顺序不太对。


更严重的是没有加“邮件需要用户确认后再发送”的硬门槛。


还有一个跟Claude Opus 4.8一样的错误: 4 天出差通常是 3 晚,但是他定了 4 晚。


这一题任务规划我的排序是:


GPT-5.5 > Claude opus 4.8 > Gemini 3.5 Flash > Qwen3.7-Max。


  • 案例3:代码修复


这题不用搞很难。


普通业务代码里的日期、边界、异常处理,反而更能看出模型到底靠不靠谱


你是一名资深 TypeScript 工程师。下面代码在处理跨月日期时有 bug,请找出问题并给出最小修改版本。


要求:


- 不要重写整个模块。


- 保留函数签名。


- 解释 bug 出现的原因。


- 给出 5 个测试用例,覆盖边界情况。


代码:


function getNextBillingDate(startDate: string, billingDay: number): string {


const date = new Date(startDate);


const year = date.getFullYear();


const month = date.getMonth() + 1;


const next = new Date(year, month, billingDay);


return next.toISOString().slice(0, 10);


}


分别看看四个模型的交付。


Claude Opus 4.8:


Claude Opus 4.8 抓到了日期溢出和时区问题,但修复代码里还混用了 getFullYear/getMonth 和 Date.UTC。如果在负时区、月初日期场景下,仍可能出问题。


Gemini 3.5 Flash:


Gemini 3.5 Flash 最大的问题是:它擅自改了业务逻辑。


原函数明显是在算“下个月的账单日”,但 Gemini 改了这段逻辑,变成“如果本月账单日还没到,就返回本月账单日”。


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5 直接指出核心 bug:JS Date 自动进位。也补充了 toISOString() 的时区问题,修复方案和 Claude 基本一致。


缺点是解释比 Claude 少一点。


Qwen3.7-Max:


Qwen3.7-Max 同样抓到了日期溢出和时区回退,而且讲得很适合中文读者,截图里的例子也直观。


但测试没有专门验证不同时区下输出一致。


这轮代码修复,GPT-5.5 > Qwen3.7-Max > Claude Opus 4.8> Gemini 3.5 Flash。


  • 案例4:中文写作


这一题专门测中文语感。


你是一名中文科技媒体作者。请把下面信息改写成一段微信公众号文章开头。


要求:


- 面向对 AI 工具有兴趣、但不是专业工程师的读者。


- 口吻自然,有信息密度,不要营销腔。


- 不要使用“重磅”“颠覆”“炸裂”“遥遥领先”。


- 开头 100 字以内。


- 最后给出 5 个标题,标题要有差异,不要标题党。


信息:


【今天,我们正式发布 Qwen3.7-Max,这是一款面向智能体时代的新一代旗舰模型。它不只擅长对话和推理,更面向真实任务执行而设计,能够承担代码编写与调试、办公流程自动化、复杂信息处理,以及跨数百到数千步的长周期自主任务。


Qwen3.7-Max 的核心定位,是成为全能型智能体基座。它可以作为编程智能体,从前端原型、网页生成、SVG 创作,到复杂多文件工程任务;也可以作为办公生产力助手,通过 MCP 集成和多智能体协作,完成文档处理、表格分析、格式修复和可视化生成等工作。


在长周期自主执行方面,Qwen3.7-Max 展现出更强的持续规划和迭代能力。官方案例中,它在约 35 小时的连续执行里完成 1,158 次工具调用和 432 次内核评估,最终在 Extend Attention Kernel 优化任务中实现 10.0 倍几何平均加速。这说明模型不只是能完成短任务,而是能够在复杂环境中持续试错、修复、优化并推进结果。


在智能体评测中,Qwen3.7-Max 在编程、通用智能体、MCP、办公自动化、推理和多语言能力上都有突出表现。比如 Terminal Bench 2.0-Terminus 达到 69.7,SWE-Pro 达到 60.6,MCP-Mark 达到 60.8,SpreadSheetBench-v1 达到 87.0,GPQA Diamond 达到 92.4,HMMT 2026 Feb 达到 97.1。整体来看,它不仅追求单点能力,而是强调跨任务、跨工具、跨框架的稳定泛化。


更重要的是,Qwen3.7-Max 不绑定单一智能体框架。无论部署在 Claude Code、OpenClaw、Qwen Code,还是其他自定义工具调用框架中,它都能保持稳定表现,适合作为下一代 AI Agent 系统的底层模型。


对于开发者,Qwen3.7-Max 已可通过阿里云百炼 API 调用,并支持接入主流智能体工具链。对于企业和团队,它意味着复杂项目从“人力密集执行”转向“模型持续协作执行”:从写代码、修文档、做表格,到自动规划、调用工具、生成交付物,模型可以承担更完整的任务闭环。


Qwen3.7-Max 是 Qwen 面向智能体时代的一次重要升级。它把前沿推理能力、长周期自主执行、工具使用、多框架适配和生产力场景结合在一起,为构建更可靠、更能干的 AI 智能体提供了新的基础。】


这里信息是用的是千问的官方介绍:Qwen3.7: The Agent Frontier,来看看四个模型的交付:


Claude Opus 4.8:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Claude 4.8 的开头信息密度很高,35 小时、1158 次工具调用、10 倍加速都放进去了,确实更有看点。


但硬要求是 100 字以内,它超过了。


Gemini 3.5 Flash:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Gemini 3.5 Flash开头自然,读者能看懂。题目只要求“给出 5 个标题”,它多输出了不需要的内容。另外“解密”“新玩法”“数字协作者”稍微有一点AI感。


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5严格控制在 100 字以内,语气自然,也没有用夸张词。标题之间有差异,而且不标题党。缺点是少了一点具体数据。


Qwen3.7-Max:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Qwen3.7-Max开头完整、顺滑,也基本符合 100 字要求,很贴合原文的意境。标题也偏“技术路线”“通用基座”这种行业稿口吻,我觉得是最好的。


这轮中文写作,Qwen3.7-Max>GPT-5.5>Claude Opus 4.8>Gemini 3.5 Flash。


  • 案例5:数据分析


最常见的需求来了,让AI分析数据并给出建议。


你是一名增长分析师。请分析下面 CSV 数据。


任务:


1. 计算每个渠道的转化率。


2. 找出 ROI 最高和最低的渠道。


3. 判断是否应该增加短视频渠道预算。


4. 给出 3 条可执行建议。


5. 输出一张 Markdown 表格。


注意:


- conversion_rate = orders / visits


- ROI = revenue / cost


- 所有百分比保留 1 位小数。


- 不要编造 CSV 外的数据。


CSV:


channel,visits,orders,cost,revenue


search,12000,840,30000,126000


short_video,18000,720,45000,108000


wechat,6000,510,12000,76500


affiliate,9000,360,15000,43200


display_ads,20000,300,50000,39000


Claude Opus 4.8:


Claude Opus 4.8 非常强。不只是算对,还算了单均成本、客单价,判断出短视频“能赚钱但赚得贵”。这比单纯说 ROI 低更像增长分析师。


Gemini 3.5 Flash:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Gemini 3.5 Flash 把短视频的判断讲得比较平衡:不是完全否定,而是“不建议盲目追加,先优化或小幅测试”。建议也具体到素材前 3 秒、购物车链路、落地页排版,这个比泛泛而谈好。


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5 计算全部正确,结论也正确,建议没有废话。


但它没有展开 ROI 背后的业务含义。


Qwen3.7-Max:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Qwen3.7-Max 算出了主要指标,也给出了不加短视频预算、削减展示广告、放大微信的建议。


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


但有一个明显问题。表格“按 ROI 从高到低排序”写错了。它把 short_video 放在 affiliate 前面,但 ROI 是 2.40 小于 2.88。


这轮数据分析,Claude Opus 4.8 > Gemini 3.5 Flash > GPT-5.5 > Qwen3.7-Max。


  • 案例6:指令遵循压力测试


这题看起来简单,但特别容易翻车。


请根据下面材料生成一份摘要。


硬性规则:


1. 只能输出 6 条 bullet。


2. 每条不超过 22 个汉字。


3. 不能使用“首先、其次、此外、总之”。


4. 必须包含一个风险判断。


5. 不得出现英文。


6. 最后一条必须以“建议复核”结尾。


材料:


【Qwen3.7-Max 是 Qwen 面向智能体时代发布的新一代旗舰模型。与传统对话模型相比,它的定位更偏向任务执行,而不是单轮问答。官方介绍中,Qwen3.7-Max 可以承担代码编写、代码调试、文档处理、表格分析、复杂信息整理,以及跨数百到数千步的长周期自主任务。它既可以作为编程智能体使用,也可以通过 MCP 集成和多智能体协作,参与企业办公、数据处理和自动化工作流。


官方重点强调了它的长周期自主执行能力。在一个内核优化案例中,Qwen3.7-Max 连续运行约 35 小时,完成 1,158 次工具调用和 432 次内核评估,最终在 Extend Attention Kernel 优化任务中实现 10.0 倍几何平均加速。这个案例说明,模型不只是能短时间生成答案,也能在复杂任务中持续尝试、修复错误、分析反馈并推进结果。


在评测表现上,Qwen3.7-Max 覆盖了编程、智能体、MCP、办公自动化、推理和多语言等多个方向。官方给出的数据包括 Terminal Bench 2.0-Terminus 69.7、SWE-Pro 60.6、MCP-Mark 60.8、SpreadSheetBench-v1 87.0、GPQA Diamond 92.4、HMMT 2026 Feb 97.1。官方认为,这些成绩说明模型具备跨任务、跨工具和跨框架的泛化能力。


Qwen3.7-Max 也强调不绑定单一智能体框架。无论部署在 Claude Code、OpenClaw、Qwen Code,还是企业自定义工具调用框架中,它都能作为底层模型接入。对于开发者,它已可通过阿里云百炼 API 调用;对于企业团队,它的价值在于把部分原本需要人工连续执行的复杂任务,交给模型和工具链协作完成。


不过,官方材料仍有一些需要进一步验证的地方。比如,长周期任务案例来自官方环境,是否能在普通开发者项目中稳定复现,还需要更多第三方测试。多框架表现虽然被强调,但不同工具链、权限设置、数据质量和任务复杂度都会影响最终效果。企业真正采用时,还要考虑成本、稳定性、权限边界、结果审计和人工复核机制。换句话说,Qwen3.7-Max 展示了智能体模型的新方向,但它是否能成为可靠的生产力底座,还要看更多真实场景中的持续表现。】


Claude Opus 4.8:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Claude Opus 4.8 把6 条、短句、无英文、包含风险、最后以“建议复核”结尾都做到了,信息密度还非常高。


最后一条:模型成为生产力底座的可行性,建议复核


严格说也“以建议复核结尾”,没问题。只是用了逗号,格式上比 Qwen 稍微不那么干净。


Gemini 3.5 Flash:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Gemini 3.5 Flash 最大的问题是多条明显超过 22 个汉字。


而且最后一条“建议复核。”有句号,不是严格以“建议复核”四个字结尾。


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5 也很稳,6 条、短句、没有英文,风险判断也有。


最后一条:企业落地需审计,建议复核


也是同样的,用了逗号,格式上比 Qwen 稍微不那么干净。


Qwen3.7-Max:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Qwen3.7-Max 这轮最好,它严格输出 6 条,每条都很短,没有英文,也没有多余解释。


最后一条是:实际效果建议复核。


完全符合“最后一条必须以建议复核结尾”。


这轮指令遵循压力测试,Qwen3.7-Max > Claude Opus 4.8 > GPT-5.5 > Gemini 3.5 Flash。


  • 案例7:svg 图coding测试


最后测试一个代码生成任务。


请尽可能详细地生成一个 TI-84 计算器的 SVG 代码


Claude Opus 4.8:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Claude Opus 4.8优点是整体可读性不错,屏幕函数图也清楚,主体、屏幕、方向键、功能键、数字键都具备。


但二级功能标签基本缺失,方向键和功能键区域有覆盖。


Gemini 3.5 Flash:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Gemini 3.5 Flash 这张最像一张完成度高的产品插画。


做出了磨砂黑机身、屏幕反光、按键阴影,视觉上最接近“可直接用”的成品图。


GPT-5.5:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


GPT-5.5 的细节很强,但它也有明显问题:底部按键有点挤出机身,enter 出现两次。


Qwen3.7-Max:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


Qwen3.7-Max 的优点是结构完整,按键也比较全。


但最终图偏扁平,质感弱一些,屏幕内容也比较简单,没有函数图像展示。


这轮svg 图coding测试,Gemini 3.5 Flash > Qwen3.7-Max> Claude Opus 4.8> GPT-5.5。


实测总结


跑完这 7 个 case,我最大的感受是:模型选用真的不能只看发布会,也不能只看榜单


Claude Opus 4.8 综合最强,尤其适合复杂理解、风险判断和严肃任务拆解。


GPT-5.5 没有特别突出,但稳定性很好,日常办公和通用任务很省心。


Qwen3.7-Max 在中文写作和硬格式遵循上表现突出。


Gemini 3.5 Flash 在视觉生成这类任务里反而不错。


最后的总测试排行如下:


横评 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,谁更强?


一些分享


现在的模型已经很难用一个“最强”来概括了,没有一个笼统的第一给你选来用,而是根据你具体的用途去选择


这次测试里,很多模型不是不会做,而是容易在某个环节出问题:有的会改业务逻辑,有的会多输出格式,有的会把推测写成事实,有的会算对但排序错。


所以,真正会用 AI,不是把任务一丢就完事,而是知道每个模型适合放在哪个位置。


模型竞争已经从“参数和榜单”进入“真实任务交付”阶段


以后大家不会只关心某个模型在 benchmark 上高了几分,而是会更关心:它能不能稳定调用工具,能不能遵守格式,能不能处理长任务,能不能在复杂工作流里少出错。


未来可能不会是一个模型通吃所有场景,而是多模型协作:一个负责深度分析,一个负责稳定输出,一个负责中文表达,一个负责视觉和代码生成。


所以这次横评下来,我的最终建议是:


别只看排行榜,也别只听发布会。


拿自己的真实任务跑一遍,才知道哪个模型真的适合你。



文章来自于微信公众号 "K姐研究社",作者 "K姐研究社"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0