美国模型长期霸榜的LMArena,出现了一个国产模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
美国模型长期霸榜的LMArena,出现了一个国产模型
8753点击    2025-12-25 14:17

时间过得太快了,一转眼就来到了 2025 年的年底。我们距离 2026 年只剩下了 8 天。回看 AI 模型和产品突飞猛进这一年,中美两家 AI 阵营的行业发展路径有了挺大的区分,大家的关注度不再是单一模型、单一能力,而是“模型+工程+场景”的复合能力。这个变化在年底愈发明显。


美国(OpenAI/Anthropic/Google 等)更多是强模型加工具链,配合开发者生态和分发入口。中国阵营则在“多模态—工程化—合规与交付”上迅猛发力,这种表现也体现在 Leaderboard 的榜单上,最近美国的 AI 三巨头模型频发,各个强模型几乎在 LMArena 上是霸榜般的存在。国内则埋头发产品,专注解决场景和工程问题。


不过 文心 5.0 Preview(ERNIE-5.0-Preview-1203)打破了这种宁静,今天上午我打开 LMArena,发现 ERNIE-5.0-Preview-1203 赫然进入了文本榜排名的前十:


美国模型长期霸榜的LMArena,出现了一个国产模型


1


12 月 23 日,LMArena 更新了最新文本榜:百度文心新模型 ERNIE-5.0-Preview-1203 以 1451 分 登上榜单,并且成为中国第一。这也是文本大模型前 20 名里“唯一的非美国模型”。


每次在一张几乎被美国模型名字填满的榜单里发现一个中文ID,我还是挺开心的,这种心态有点像当年看奥运会网球比赛,突然中国运动员进决赛了,那我立刻就得坐直一点看比赛了。


1451 分意味着什么:不是“卷参数”,而是加强“工程和场景”。


文心 5.0 我 11 月就写过,原生多模态场景表现出色,这次 ERNIE-5.0-Preview-1203 的优势,就集中在创意写作和高难度指令方面,在这些领域它超过了 Claude-Opus-4-1、GPT-5.2、GPT-5.1 和 Qwen3-Max-Preview 等多款主流模型。


这种复杂能力在真实世界的变现很有意思,它不一定能在“标准题”里得满分,更多是在真实场景里决定了用户的体验上限。


真实世界的提示词,往往不是“请总结以下三点”,更多是“请把我这段混乱的需求变成可执行的计划,同时别遗漏我那些看起来像废话的约束”。很多模型在这样的场景里翻车,常见原因不是“不聪明”,而是“不够稳健”:理解歪了、自作聪明,或者出现幻觉,把细节当噪音给过滤掉了。


LMArena 官方账号在 X 上的评论是,这是来自中国的顶级文本模型,相比上一个版本,分数提高了 23 分。


美国模型长期霸榜的LMArena,出现了一个国产模型


另一位 AI 社区的 KOL——FELIX 评论就更加直接,他说:


文心新模型 ERNIE-5.0-Preview-1203 最新评分飙升至 1451 分,单次更新就跃升了 23 分。这使其稳居中文模型榜首,遥遥领先于Qwen3-max-preview。


该模型在创意写作与复杂指令处理方面表现尤为突出。那些通常会让模型崩溃的冗长杂乱指令,它都能游刃有余地妥善处理。"能够回答问题"与"能够与你共同思考"之间的差距正在迅速缩小。


这是中国模型的重要时刻,而且这不会是最后一次。


美国模型长期霸榜的LMArena,出现了一个国产模型


2


不过咱们还是得面对现实,冷静看待“只有一个非美国模型”这件事。


我们不得不承认,在强模型领域,AI 的前沿能力依然集中在美国的几家机构与公司里,国内模型要进入同一张“全球用户投票+同场对比”的榜单,本身就意味着研发节奏、产品交付、以及公开验证体系,都要发生变化。


不过 LMArena 的分数不能代表一切,它更像“当下公众样本对某类任务体验的投票结果”。能说明趋势,能进行对比,但不等于直接解决用户的场景和工程问题。


换句话说: 1451 这样的分数并不等同于对完整生产力能力的衡量,但它确实会让更多人愿意把它放进工作流里试一试——这正是下一轮迭代最需要的动力。


就是这么回事。


3


说起这次榜单评测,为什么我会觉得创意写作和复杂指令更有价值?因为这种场景最容易翻车,也最接近真实使用场景的能力。


是的,模型的竞争正在从“答对题”走向“这个回答像是一个靠谱的合作者”。对于内容工作者来说,创意写作可不是“写文案”这么简单,它更像“在限制条件里维持风格一致性”;


对于产品和工程而言,要求就更高了。什么是复杂指令?把需求拆解正确,把目标搞清楚,把约束用好,不要出现幻觉,能对接第三方 API,最终的交付物是工程产品,而不是 demo。


如果一个模型能在这些方面表现出色,它就更可能从“偶尔用一下”变成工作流程里的默认环节。


文心 5.0 确实是这么定义的:新一代原生全模态大模型,支持文本、图像、音频、视频等多模态输入输出。能在多模态理解、指令遵循、创意写作、Agent 规划与工具应用等方面表现突出,就是模型的目标。


放回到 LMArena 的环境里,这些目标对应的方向是:模型能力不再只用来“生成文本”,而是要更稳定地扛住复杂任务——尤其是“规划”和“工具使用”这类能力,一旦可用,产品形态就会发生变化:从 Chat 走向 Action,从“能说”走向“能把事情做好”的阶段。


另一位 AI 与科技教育者 Hasan Toor 是这么评价的:


最新的 LMArena 文本基准测试更新出炉,@Baidu_Inc 的 ERNIE-5.0-Preview-1203 现已稳居顶级梯队。它不仅有所提升,更是一跃达到 1451 分,较前一版本增加了 23 分,在中国模型中排名第一,与谷歌的 Gemini-2.5-pro 得分持平。


ERNIE 在创意和复杂提示处理方面的进步,使其稳居中国模型前列,超越了如 Qwen3 等模型。人工智能领域正快速演变——此次更新展现了顶尖竞争已变得何等激烈。


若“机械式”的 AI 文本一直阻碍您的工作流程,ERNIE 5.0 的文本表现力为内容生成工作流提供了更具表现力和灵活性的选择。


美国模型长期霸榜的LMArena,出现了一个国产模型


4


最近看到文心动作频频,Preview 版本更新迭代很快,我猜测可能在为 5.0 正式版铺路了。


11 月 8 日,ERNIE-5.0-Preview-1022 在 LMArena 文本榜全球并列第二,中国第一。


11 月 22 日,ERNIE-5.0-Preview-1120 在 LMArena 视觉理解榜拿到 1206 分,位列国内第一。


12 月 23 日,ERNIE-5.0-Preview-1203 登上 LMArena 文本榜国内第一。


Preview 版本频繁迭代,并在公开场域里和全球强模型竞赛,反复校准“基线”。这种操作的好处是,正式版上线时,外界对模型的能力区间就会有稳定的预期。


上周和百度的同学聊天,我估计文心原生多模态 5.0 的正式版本,最快可能 2026 年 1 月就能上线。


5


事实上 LMArena 的榜单不会替任何人下结论,但这个入口会给用户一个起心动念,下一次需要一个“更稳、更能处理复杂需求”的模型时,候选名单里,多了文心这个名字。


ERNIE-5.0-Preview-1203 这 1451 分的意义,不在于“第几名”,而是它的核心能力:创意写作与复杂指令——再一次:这是最容易翻车的地方,也是最接近真实场景的地方。


接下来我想知道的是:


第一,ERNIE-5.0-Preview 版本的持续“公开验证”,能不能继续把基线抬高;


第二,如果 1 月真的迎来正式版,它能否把榜单里的优势,翻译成稳定的用户体验、产品能力与生态吸引力。


非常期待。


文章来自于“MacTalk”,作者 “池建强”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0