数学代码双优,推理速度最高达350TPS。
智东西2月2日报道,今日,阶跃星辰Step 3.5 Flash开源并上线,该模型在Agent场景和数学任务上能力逼近闭源模型,能够胜任复杂、长链条任务,是阶跃星辰迄今最强的开源基座模型。

▲Step 3.5 Flash开源页面(来源:Hugging Face)
就在上周,阶跃星辰宣布由旷视科技联合创始人、千里科技董事长印奇正式出任董事长,并完成华勤、腾讯等参投的超50亿元B+轮融资。这也是印奇履新后,阶跃星辰在开源模型领域的首个大动作。
在智能密度对比图中可以看出,Step 3.5 Flash以约200B的参数量,取得了81.0的分数,在所有模型中智能密度最高。在单请求代码类任务中,Step 3.5 Flash的推理速度最高可达到350TPS。

▲智能密度对比图
Step 3.5 Flash采用稀疏MoE架构,每个token仅激活约110亿个参数(总计1960亿参数),在保证模型能力的同时提升推理效率。
包括华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家芯片厂商,已率先完成对Step 3.5 Flash的适配。
开源地址:
GitHub:
https://github.com/stepfun-ai/Step-3.5-Flash/tree/main
Hugging Face:
https://huggingface.co/stepfun-ai/Step-3.5-Flash
性能全面逼近闭源大模型
最高推理速度达350TPS
在基准测试成绩上,推理能力方面,Step 3.5 Flash在AIME 2025、IMOAnswerBench、HMMT 2025等数学竞赛级任务中分别取得了97.3、88.8、96.2的分数,均排名第二,Step 3.5 Flash开启Parallel Thinking后的增强性能排名第一。
在编码能力上,Step 3.5 Flash在LiveCodeBench-V6测试中得分86.4,排名第三,开启Parallel Thinking后,其仅次于Gemini 3.0 Pro。
在智能Agent能力上,Step 3.5 Flash在BrowseComp测试中得分69.0,仅次于kimi K2.5;在xbench-DeepSearch测试得分54.0,仅次于GPT-5.2 xhigh。

▲基准测试成绩
该模型采用稀疏混合专家(MoE)架构,总参数量达1960亿,单个token仅需激活约110亿参数。
针对长文本处理场景,Step 3.5 Flash三路多Token预测(MTP-3)技术,Step 3.5 Flash在典型使用场景中实现了每秒100-300个token的生成吞吐量,在单请求代码类任务中峰值可达350TPS。
在长上下文任务中,模型仅聚焦关键信息区域,降低冗余计算开销,可支撑256K长度的长文本理解与生成。
据官方介绍,Step 3.5 Flash专为智能体任务构建,集成了可扩展的强化学习框架以实现持续的自我改进。
该模型通过采用3:1滑动窗口注意力(SWA)比例,即每层全注意力层配以三层SWA层。这种混合方法确保模型在处理海量数据或长代码库时性能稳定,同时降低了标准长上下文模型通常所需的计算开销。
针对可访问性优化,Step 3.5 Flash可以在高端消费级硬件,如Mac Studio M4 Max、NVIDIA DGX Spark等上安全运行,确保数据私密性的同时不牺牲性能。
几秒算出等差数列
还能一句话搭建可视化平台
智东西第一时间上手体验,首先数学方面,我们先考考Step 3.5 Flash一个把很多大模型都难倒了的问题:9.9和9.11谁大?Step 3.5 Flash几乎立刻就给出了思考过程和正确答案,但是在回答中出现了将9.9误输出为99.9的错误。

▲9.9和9.11比大小
那再复杂一些的数学题呢?阶跃星辰官方给出案例,Step 3.5 Flash可以快速计算复杂数学题并输出正确答案。
Prompt:请在不使用外部工具的情况下,依次计算并列出以下等差数列的和:从第1项开始,首项为100,公差为-3的前50项和;1³+2³+...+10³的和;1!+2!+3!+4!+5!的和;2^10+3^5的和;√144+∛125+⁴√16的和。
以下视频来源于阶跃星辰

▲快速计算复杂数学题
在智能体编程方面,Step 3.5 Flash可以基于一段文字prompt自动编程输出可视化平台结果。
我们让Step 3.5 Flash生成一个模拟海浪平台,可以看到,其生成的可视化平台可以调节海浪的频率和形态,还可以调整摄像头的位置,生成效果基本符合要求。

▲生成模拟海浪平台
官方给出了一个生成气象情报仪表盘的例子:
Prompt:气象情报仪表盘——一款受飞行驾驶舱启发的三维地球可视化平台,专为高密度数据环境设计。其搭载的定制WebGL 2.0引擎,可实时处理超过15000个动态节点及WebSocket遥测数据流。
生成结果显示,Step 3.5 Flash展现出了构建低延迟数据管道与高性能地理空间可视化系统的能力。
以下视频来源于阶跃星辰

▲生成气象情报仪表盘
Step 3.5 Flash也原生支持多智能体架构,其中一个主智能体通过自主规划和动态路由来协调复杂任务。
这个分层框架会派遣专门的“搜索”和“验证”智能体,通过并行工具调用循环来处理信息检索和事实核查。为确保精确性,一个“总结”智能体会将每个子智能体的执行轨迹整合为结构化反馈,使主智能体能够综合生成最终连贯的响应。

▲多智能体深度研究
Step 3.5 Flash还可以端云结合,简化本地端执行流程。例如,用户提出对比Mac Mini M4在各平台的价格。
Step 3.5 Flash作为“云端大脑”,将这一复杂需求拆解为针对淘宝、京东和拼多多的具体子任务。随后Step 3.5 Flash汇总结果,识别出拼多多为最低价平台,并提供购买指南。
这种云端规划显著降低了本地Step-GUI的执行难度,使其在从各应用抓取实时数据时获得更高成功率。
以下视频来源于阶跃星辰

▲对比Mac Mini M4在各平台的价格
结语:Agent能力成为新战场
无论是阶跃星辰Step 3.5 Flash的开源,还是此前月之暗面Kimi K2.5的发布,都指向了Agent的能力,阶跃星辰官方还透露已经开启Step 4模型的训练,同样是Agent基础模型。
Agent要求模型具备深度的逻辑推理、任务拆解、规划执行和工具调用能力,对模型“大脑”的性能要求更高。
模型大脑的技术迭代加速了AI技术的实用化进程,或将催生更强大的生产力工具,并可能围绕智能体形成新的竞争格局。
文章来自于微信公众号 “智东西”,作者 “智东西”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0