
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。
智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。
阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。
AI非上云不可、非集群不能?万字实测告诉你,32B卡不卡?70B是不是智商税?要几张卡才能撑住业务? 全网最全指南教你如何用最合适的配置,跑出最强性能。
一次性揭秘Gemini多模态技术!就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。
OpenRouter 又上新神秘模型了,支持 100 万 token 上下文,猜猜是谁家的。 刚刚,OpenRouter 上出现了一个神秘模型,该模型被命名为「Cypher Alpha」。其可以免费使用,100 万 token 上下文,还具有推理能力。
今天,百度AI Day上双杀全场!自研多模态大模型MuseSteamer携「绘想」平台重磅上线,视频创作直接杀进电影级AI时代。同时,百度搜索迎十年最大改版,体验全面开挂。
原来,CoT推理竟是假象!Bengio带队最新论文戳穿了CoT神话——我们所看到的推理步骤,并非是真实的。不仅如此,LLM在推理时会悄然纠正错误,却在CoT中只字未提。