美国模型长期霸榜的LMArena，出现了一个国产模型

10260点击 2025-12-25 14:17

时间过得太快了，一转眼就来到了 2025 年的年底。我们距离 2026 年只剩下了 8 天。回看 AI 模型和产品突飞猛进这一年，中美两家 AI 阵营的行业发展路径有了挺大的区分，大家的关注度不再是单一模型、单一能力，而是“模型+工程+场景”的复合能力。这个变化在年底愈发明显。

美国（OpenAI/Anthropic/Google 等）更多是强模型加工具链，配合开发者生态和分发入口。中国阵营则在“多模态—工程化—合规与交付”上迅猛发力，这种表现也体现在 Leaderboard 的榜单上，最近美国的 AI 三巨头模型频发，各个强模型几乎在 LMArena 上是霸榜般的存在。国内则埋头发产品，专注解决场景和工程问题。

不过文心 5.0 Preview（ERNIE-5.0-Preview-1203）打破了这种宁静，今天上午我打开 LMArena，发现 ERNIE-5.0-Preview-1203 赫然进入了文本榜排名的前十：

1

12 月 23 日，LMArena 更新了最新文本榜：百度文心新模型 ERNIE-5.0-Preview-1203 以 1451 分登上榜单，并且成为中国第一。这也是文本大模型前 20 名里“唯一的非美国模型”。

每次在一张几乎被美国模型名字填满的榜单里发现一个中文ID，我还是挺开心的，这种心态有点像当年看奥运会网球比赛，突然中国运动员进决赛了，那我立刻就得坐直一点看比赛了。

1451 分意味着什么：不是“卷参数”，而是加强“工程和场景”。

文心 5.0 我 11 月就写过，原生多模态场景表现出色，这次 ERNIE-5.0-Preview-1203 的优势，就集中在创意写作和高难度指令方面，在这些领域它超过了 Claude-Opus-4-1、GPT-5.2、GPT-5.1 和 Qwen3-Max-Preview 等多款主流模型。

这种复杂能力在真实世界的变现很有意思，它不一定能在“标准题”里得满分，更多是在真实场景里决定了用户的体验上限。

真实世界的提示词，往往不是“请总结以下三点”，更多是“请把我这段混乱的需求变成可执行的计划，同时别遗漏我那些看起来像废话的约束”。很多模型在这样的场景里翻车，常见原因不是“不聪明”，而是“不够稳健”：理解歪了、自作聪明，或者出现幻觉，把细节当噪音给过滤掉了。

LMArena 官方账号在 X 上的评论是，这是来自中国的顶级文本模型，相比上一个版本，分数提高了 23 分。

美国模型长期霸榜的LMArena，出现了一个国产模型

另一位 AI 社区的 KOL——FELIX 评论就更加直接，他说：

文心新模型 ERNIE-5.0-Preview-1203 最新评分飙升至 1451 分，单次更新就跃升了 23 分。这使其稳居中文模型榜首，遥遥领先于Qwen3-max-preview。

该模型在创意写作与复杂指令处理方面表现尤为突出。那些通常会让模型崩溃的冗长杂乱指令，它都能游刃有余地妥善处理。"能够回答问题"与"能够与你共同思考"之间的差距正在迅速缩小。

这是中国模型的重要时刻，而且这不会是最后一次。

美国模型长期霸榜的LMArena，出现了一个国产模型

2

不过咱们还是得面对现实，冷静看待“只有一个非美国模型”这件事。

我们不得不承认，在强模型领域，AI 的前沿能力依然集中在美国的几家机构与公司里，国内模型要进入同一张“全球用户投票+同场对比”的榜单，本身就意味着研发节奏、产品交付、以及公开验证体系，都要发生变化。

不过 LMArena 的分数不能代表一切，它更像“当下公众样本对某类任务体验的投票结果”。能说明趋势，能进行对比，但不等于直接解决用户的场景和工程问题。

换句话说： 1451 这样的分数并不等同于对完整生产力能力的衡量，但它确实会让更多人愿意把它放进工作流里试一试——这正是下一轮迭代最需要的动力。

就是这么回事。

3

说起这次榜单评测，为什么我会觉得创意写作和复杂指令更有价值？因为这种场景最容易翻车，也最接近真实使用场景的能力。

是的，模型的竞争正在从“答对题”走向“这个回答像是一个靠谱的合作者”。对于内容工作者来说，创意写作可不是“写文案”这么简单，它更像“在限制条件里维持风格一致性”；

对于产品和工程而言，要求就更高了。什么是复杂指令？把需求拆解正确，把目标搞清楚，把约束用好，不要出现幻觉，能对接第三方 API，最终的交付物是工程产品，而不是 demo。

如果一个模型能在这些方面表现出色，它就更可能从“偶尔用一下”变成工作流程里的默认环节。

文心 5.0 确实是这么定义的：新一代原生全模态大模型，支持文本、图像、音频、视频等多模态输入输出。能在多模态理解、指令遵循、创意写作、Agent 规划与工具应用等方面表现突出，就是模型的目标。

放回到 LMArena 的环境里，这些目标对应的方向是：模型能力不再只用来“生成文本”，而是要更稳定地扛住复杂任务——尤其是“规划”和“工具使用”这类能力，一旦可用，产品形态就会发生变化：从 Chat 走向 Action，从“能说”走向“能把事情做好”的阶段。

另一位 AI 与科技教育者 Hasan Toor 是这么评价的：

最新的 LMArena 文本基准测试更新出炉，@Baidu_Inc 的 ERNIE-5.0-Preview-1203 现已稳居顶级梯队。它不仅有所提升，更是一跃达到 1451 分，较前一版本增加了 23 分，在中国模型中排名第一，与谷歌的 Gemini-2.5-pro 得分持平。

ERNIE 在创意和复杂提示处理方面的进步，使其稳居中国模型前列，超越了如 Qwen3 等模型。人工智能领域正快速演变——此次更新展现了顶尖竞争已变得何等激烈。

若“机械式”的 AI 文本一直阻碍您的工作流程，ERNIE 5.0 的文本表现力为内容生成工作流提供了更具表现力和灵活性的选择。

美国模型长期霸榜的LMArena，出现了一个国产模型

4

最近看到文心动作频频，Preview 版本更新迭代很快，我猜测可能在为 5.0 正式版铺路了。

11 月 8 日，ERNIE-5.0-Preview-1022 在 LMArena 文本榜全球并列第二，中国第一。

11 月 22 日，ERNIE-5.0-Preview-1120 在 LMArena 视觉理解榜拿到 1206 分，位列国内第一。

12 月 23 日，ERNIE-5.0-Preview-1203 登上 LMArena 文本榜国内第一。

Preview 版本频繁迭代，并在公开场域里和全球强模型竞赛，反复校准“基线”。这种操作的好处是，正式版上线时，外界对模型的能力区间就会有稳定的预期。

上周和百度的同学聊天，我估计文心原生多模态 5.0 的正式版本，最快可能 2026 年 1 月就能上线。

5

事实上 LMArena 的榜单不会替任何人下结论，但这个入口会给用户一个起心动念，下一次需要一个“更稳、更能处理复杂需求”的模型时，候选名单里，多了文心这个名字。

ERNIE-5.0-Preview-1203 这 1451 分的意义，不在于“第几名”，而是它的核心能力：创意写作与复杂指令——再一次：这是最容易翻车的地方，也是最接近真实场景的地方。

接下来我想知道的是：

第一，ERNIE-5.0-Preview 版本的持续“公开验证”，能不能继续把基线抬高；

第二，如果 1 月真的迎来正式版，它能否把榜单里的优势，翻译成稳定的用户体验、产品能力与生态吸引力。

非常期待。

文章来自于“MacTalk”，作者 “池建强”。

关键词: AI新闻 , LMArena , ERNIE-5.0-Preview-1203 , 文心 5.0 Preview

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0