全球首次单机降服万亿巨模DeepSeek-V4!RL后训练框架Orbit开源!
全球首次单机降服万亿巨模DeepSeek-V4!RL后训练框架Orbit开源!从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离不开 RL 后训练。但当模型规模进入 MoE 万亿参数级别之后,RL 不再只是一个算法问题,同时更加是一个系统问题。
搜索
从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离不开 RL 后训练。但当模型规模进入 MoE 万亿参数级别之后,RL 不再只是一个算法问题,同时更加是一个系统问题。
相信大家都有过这样的体验:同一个系列的模型,使用文本交互的时候,模型就像开启了 “最强大脑”,数学代码等各种复杂推理任务样样精通,可是一旦将其改造成语音对话模型之后,性能就猛烈下降,严重 “降智”,经常会犯很多基本的逻辑错误。
当下视频生成模型正在快速逼近真实世界的画面质感,但一个现实瓶颈也越来越突出—— 那就是分辨率越高,生成所需要的时间就越长。
根据《金融时报》、路透社等媒体的报道,英伟达首席执行官黄仁勋(Jensen Huang)已接受邀请,加入清华大学经济管理学院顾问委员会。
大模型进入自动驾驶后,最直接的价值在于场景理解。它可以识别前车是否准备并线、行人是否可能横穿、施工区域是否会影响车道,也可以分析复杂路口中的让行关系。
刚刚,英伟达再次甩出一份炸裂财报:单季营收816亿美元,光数据中心一项就占了92%。但真正应当注意的,是财报中一个一年翻了近29倍的数字。它背后,是英伟达正在悄悄完成的身份转换:从「卖铲子的人」,变成整条AI产业链的「收租人」。
迈入今年618大促周期,各大电商平台纷纷加码AI购物,智能选购成为各家角逐的新焦点。
你有没有想过,我们每天用的 AI 大模型,可能在某些词汇上天生就有缺陷?不是因为训练数据不够,不是因为算力不足,而是因为语言本身的规律——那些用得少的词,模型就是学不好。更让人意外的是,这个问题早在 2025 年就被一家中国创业公司系统性地发现并解决了。
距离谷歌的Gemini 3.5 Flash发布已经一周多了。
YC 官方账号亲自下场推了一家叫 Manicule 的公司——专门给开发者工具团队承包技术文档和 DevRel 内容,核心卖点:成本只要 DevRel 的一半,速度快一倍,而且文档专门为 AI agent 优化。当 Codex、Claude Code 这些编程 agent 开始直接读你的 docs 来调 API,文档质量差就等于把客户拱手让给竞品。