九天大模型大变身：性能狂飙35%！还能一键P大象

11159点击 2025-08-04 14:35

7月26日，在2025世界人工智能大会期间，中国移动焕新发布「九天」基础大模型3.0。

本次发布的「九天」基础大模型3.0，重点聚焦模型的端到端技术升级以及生成可控性能力的增强，进一步强化九天大模型「高安全、高可控、全国产、全行业」的独特优势。

端到端升级，九天众擎性能大跃升

九天众擎语言大模型1.0于2023年10月发布，实现了大模型数据构建、预训练、微调、推理等全链路核心技术自主研发，是首个通过国家网信办双备案的央企大模型。

九天众擎语言大模型2.0于2024年7月发布，创新提出基于稀疏专家混合语言架构，模型参数及训练数据均有飞跃性提升，预训练阶段采用了5万亿Token数据，此外，还引入了10%的行业知识数据。

本次发布的语言大模型3.0在架构、数据、后训练、算力适配等方面实现了升级和技术创新。

架构方面，突破性采用业界领先的MoE（Mixture of Experts）架构，通过并行优化、混精计算优化、权重去冗余优化、构建自动故障恢复程序、框架快速编译与编译缓存、全局集合通信域异步创建及算子通信预建链等技术创新，解决了大模型解决算法精度溢出、非确定性计算误差、检查点存储慢、稀疏模型训练效率低下等问题。

数据方面，预训练数据总规模扩增到15T token，采用了多阶段配比方式：在第一阶段学习海量知识，第二阶段用高质量数据重点提升数学推理等各种专项能力，第三阶段（退火阶段）用长文数据和更高质量数据进行能力上的进一步爬坡。

在高质量数据方面，对数学、逻辑推理、代码、专业知识等重点领域进行了大幅增强，在数据上实现了简洁回答与长思维链深度思考的有机结合。

此外，还构建了覆盖全流程的数据治理体系技术架构，涵盖多源异构语料采集、深度清洗与标注等关键环节，还集成了敏感度检测、动态资源调度等核心能力，能够实现多语言、多文化、多地域表达的高质量覆盖，特别是在复杂语境与稀缺资源条件下具备显著优势。

后训练方面，在数据筛选阶段，核心创新在于构建了包含113域×53能力的「二维分级」数据体系，并系统性应用了基于「质量/难度/多样性/必要性」的四维筛选准则；

在数据合成阶段，创新性地提出层级原则体系，实现从安全到高级文风再到模型个性的多维度精准指导，同时设计了数据驱动原则归纳方法及动态应用机制，从高质量数据中自动提炼隐形规则，助力九天模型从机械式检索进化为能输出商业洞察与情感共鸣的智能助手；

在强化学习阶段，设计了一种多阶段的强化学习训练方法，创新性地结合了动态温度调节、难度自适应的数据更新机制以及上下文窗口逐步扩展策略，实现了在长期训练过程中的稳定性保障与模型能力的持续提升。

算力适配方面，九天众擎语言大模型3.0实现了在算子、框架、模型三个层面的全栈国产适配，实现了与11家芯片厂商17款国产AI芯片的适配，在研发期间共解决了200+个芯片硬件、集群、算子、算法框架中的缺陷，完成60项算子和训练算法方面的优化。

通过多维度的端到端技术升级，模型的复杂推理能力较上一代提升35%，智能体调用效率提升21%，实现了性能的跨越式进步。

在IFEval评测中，「九天」以88.61分超越其他模型，在MMLU-Pro测评中，以71.41分超越Qwen3，在ArenaHard V0.1测评中，以91.4分超越DeepSeek V3。

性能跃升的同时，九天众擎语言大模型以「高可控智能体」为核心，构建了覆盖知识问答、角色服务、流程控制的全链路解决方案。在知识问答层面，具有低幻觉文档问答能力，通过深度语义解析精准捕捉用户意图，依托真实文档实现有据回复，确保信息生成的真实性与可靠性。

角色扮演服务场景中，模型聚焦沉浸式角色演绎，深度解析角色背景信息与SOP服务流程，基于深度推理能力模拟角色思考逻辑，显著提升客户交互的真实感与专业度。

在业务流程控制环节，九天众擎语言大模型支持自然语言、伪代码、Mermaid等多种方式描述业务规范流程，严格遵守既定工作流程与API接口协作规则，灵活应对多嵌套、多分支的复杂任务，有效规避「规划幻觉」风险，保障业务流程执行的确定性与可控性。

基于最新的语言大模型，中国移动此次也推出多个专项大模型。九天代码大模型使用两阶段的持续训练技术，支持代码生成、注释生成、单元测试生成、代码智能问答等多种任务，支持Python、Java、JS、TS、Go、C++等10+种主流编程语言。

性能方面，在LivecodeBench v5、BFCL V3等代码生成榜单成绩超越Qwen3及DeepSeek V3。

九天大模型大变身：性能狂飙35%！还能一键P大象

九天代码大模型可快速实现HTML页面设计：

九天大模型大变身：性能狂飙35%！还能一键P大象

九天数学大模型，在短思考、长思考模式均达到业界SOTA水平，在MATH500及AIME 2024测评任务中指标超越Qwen3。

九天大模型大变身：性能狂飙35%！还能一键P大象

九天大模型数学推理方面表现出色，能够准确理解数学问题的核心逻辑，并运用多种方法进行推理和验证，精准地给出答案。

九天大模型大变身：性能狂飙35%！还能一键P大象

本题推导了Shor算法进行质因数分解时，量子傅里叶变换后的量子态坍缩概率分布公式，模型基于周期性态和量子傅里叶变换的数学性质计算测量结果的概率

高可控视觉生成，九天善智多模态能力焕新

九天善智多模态大模型全面提升生成可控性，基于复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新，同时引入多模态理解信息提升对文本指令和输入条件图像视频的感知能力，联合图文交织数据训练，实现既能生成高质量的图像视频，又能进行多轮对话式高可控精确编辑操作，显著提升了视觉生成的灵活便利性。

在图片生成功能方面，可支持多轮精准局部修改，如修改文字、修改背景、增加元素等。如「生成一张公交站牌，站牌上写着『5G』的图片」。

九天大模型大变身：性能狂飙35%！还能一键P大象

将5G替换为6G

九天大模型大变身：性能狂飙35%！还能一键P大象

站牌旁边停着一辆公交车

九天大模型大变身：性能狂飙35%！还能一键P大象

旁边还有一辆摩托车

九天大模型大变身：性能狂飙35%！还能一键P大象

改成涂鸦风格

九天大模型大变身：性能狂飙35%！还能一键P大象

图片动起来

九天大模型大变身：性能狂飙35%！还能一键P大象

在视频生成功能方面，构建统一可控生成体系，视频生成可控性进一步增强，支持基于个体轨迹控制的视频生成，视频续写，基于运镜控制的视频生成以及视频编辑能力。

针对基于个体轨迹控制的视频生成，提出层次化运动建模与动态特征对齐技术，突破长程依赖建模难题。

创新性地利用运动向量解耦与三模态协同控制技术，实现支持亚像素级路径和适配多曲率运动轨迹的视频轨迹控制能力。

九天大模型大变身：性能狂飙35%！还能一键P大象

基于运镜控制的视频生成技术，利用语义信息解耦和时序条件注入，并通过引入相机姿态信息，模拟真实物理世界成像规律，实现对生成视频运镜的精准控制。

九天大模型大变身：性能狂飙35%！还能一键P大象

视频编辑能力创新性引入自适应编辑模块和结构化噪声设计，有效提升用户指令跟随能力，保证编辑前后运动以及非编辑区域的视觉一致性。

视频编辑-删除操作

九天大模型大变身：性能狂飙35%！还能一键P大象

视频编辑-替换操作

九天大模型大变身：性能狂飙35%！还能一键P大象

多模态大模型在图理解和视频理解方面的性能表现也全面提升。图理解方面，采用了token-mixing策略与视觉重采样方案，巧妙地平衡了全局感知和细粒度感知能力，使得模型在处理更高分辨率的输入图像时，依然能保持出色的性能表现，进而实现了综合能力的显著提升。

在MMStar、HallusionBench和OCRBench等图理解任务中，九天模型分别获得了82.2、64.3和94.9的高分，OpenCompass综合评分79.5分，领先其他大部分模型。

九天大模型大变身：性能狂飙35%！还能一键P大象

视频理解方面，九天模型设计金字塔型记忆库结构和多层渐进式的视觉token融合方案，兼顾视频流中的时间和空间信息，提升模型对于长时视觉信号的理解能力。

在Videomme任务中表现优秀，超越Qwen2-VL和GPT-4o，在MVbench任务领先其余模型。

九天大模型大变身：性能狂飙35%！还能一键P大象

添加图片注释，不超过 140 字（可选）

8月6日开始，九天将开展一系列技术直播，重点解析九天基础大模型、开源模型及数据集，锁定「九天人工智能」视频号，获取最新技术干货。

九天开源模型和评测体系下载链接

1. 数学大模型：JT-Math-8B 系列模型

焕新社区地址（下载方式见文末）：

JT-Math-8B-Instruct：

https://aihuanxin.cn/#/model?path=/model/detail/1463

JT-Math-8B-Thinking：

https://aihuanxin.cn/#/model?path=/model/detail/1464

JT-Math-8B-Base：

https://aihuanxin.cn/#/model?path=/model/detail/1459

Huggingface地址：

https://huggingface.co/JT-LM/JT-Math-8B-Base

https://huggingface.co/JT-LM/JT-Math-8B-Instruct

https://huggingface.co/JT-LM/JT-Math-8B-Thinking

ModelScope地址：

https://www.modelscope.cn/models/JiuTian-AI/JT-Math-8B-Instruct

https://www.modelscope.cn/models/JiuTian-AI/JT-Math-8B-Base

https://www.modelscope.cn/models/JiuTian-AI/JT-Math-8B-Thinking

github地址：

https://github.com/JT-LM/JT-Math-8B

gitee地址：

https://gitee.com/CMCC-jiutian/jt-math-8b.git

2. 代码大模型：JT-Coder-8B 系列模型

焕新社区地址（下载方式见文末）：

JT-Coder-8B-Instruct：

https://aihuanxin.cn/#/model?path=/model/detail/1458

JT-Coder-8B-Base：

https://aihuanxin.cn/#/model?path=/model/detail/1466

Huggingface地址：

https://huggingface.co/JT-LM/JT-Coder-8B-Base

https://huggingface.co/JT-LM/JT-Coder-8B-Instruct

ModelScope地址：

https://www.modelscope.cn/models/JiuTian-AI/JT-Coder-8B-Base

https://www.modelscope.cn/models/JiuTian-AI/JT-Coder-8B-Instruct

焕新社区开源获取方式：

进入焕新社区（aihuanxin.cn），进入模型库/数据集，选择组织【九天人工智能】，快速获取九天最新开源内容。

九天大模型大变身：性能狂飙35%！还能一键P大象

文章来自公众号“新智元”

关键词: Ai新闻 , 九天基础大模型 , 九天基础大模型3.0 , 九天大模型 , 移动大模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales