AI资讯新闻榜单内容搜索-工智能

大模型RL训练为何会「越训越窄」？ACL Outstanding Paper从token-level熵变揭示RLVR训练机制

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards，RLVR）正在成为大模型后训练的关键技术。数学题能判对错，代码能跑测试，可验证奖励让大模型可以通过强化学习持续提升推理能力。

来自主题: AI技术研报

9958 点击 2026-07-16 10:10

Raft是一个很神奇的AI产品。当它还叫Slock的时候，我认为这主要是一个投资人自嗨产物。除了极少数自己充了Claude、Codex会员，同时本地电脑还有Opencode、Pi等一系列Agent的极致变态电子佬用户，没人需要一个AI群聊。

来自主题: AI资讯

7387 点击 2026-07-16 10:09

推理大模型 (如 DeepSeek-R1、o1) 靠长思维链拿高分，却普遍「想太多」: 研究统计了五个代表性模型里，发现有 41–52% 的 token 是在模型给出它的最终答案之后生成的。

来自主题: AI技术研报

5588 点击 2026-07-16 10:08

一个自由度超高的游戏机，只需完成硬件设计！你就能根据我的软件架构，一句话生成游戏！是的！想要什么游戏，都可以DIY！都可以自定义！

来自主题: AI资讯

8342 点击 2026-07-16 09:28

刚刚，网信中国发布公告，「Apple 智能」正式通过生成式人工智能服务备案。和苹果一起「持证上岗」的还有华为小艺 AI 大模型、OPPO AndesGPT、vivo 蓝心端侧大模型、小米澎湃 AI、三星盖乐世 AI 和努比亚豆包手机大模型，一共 7 款手机端侧大模型在 7 月 8 日集体过审。

来自主题: AI资讯

9111 点击 2026-07-15 16:40

7月14日，旧金山，设计人工智能模型以发现新分子的Chai Discovery宣布完成4亿美元的C轮融资，以进一步加快进展。本轮融资对该公司的估值为38亿美元，由Index Ventures、凯鹏华盈

来自主题: AI资讯

8760 点击 2026-07-15 15:39

到 2026 年年中，AI 「研发自动化」的进度表，已经相当激进了。在田渊栋看来，试图在参数调优和执行效率上与机器赛跑，注定是一场必败的战役。当 RSI 彻底重塑智力分工的明天，人类最后的护城河，是那些无法被结构化外化的「深层理解」。

来自主题: AI资讯

8817 点击 2026-07-15 15:10

近期，字节跳动商业化GenAI中国区负责人、原AI Lab技术负责人袁泽寰确认离职，创业方向锚定世界模型赛道，聚焦Physical AI领域的基础模型研发。

来自主题: AI资讯

5663 点击 2026-07-15 14:57

又送了！就在刚刚，Codex与ChatGPT Work的活跃用户大军，合体突破800万大关。

来自主题: AI资讯

9246 点击 2026-07-15 14:56

当 Agent 走向生产，云与数据库需要被一起重新考虑。

来自主题: AI资讯

6109 点击 2026-07-15 14:55