AI资讯新闻榜单内容搜索-研究

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

7134 点击 2025-10-19 12:06

语音助手的「智商滑铁卢」：当GPT开口说话，准确率从74.8%跌到6.1%

杜克大学和 Adobe 最近发布的 VERA 研究，首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统，使用了 2,931 道专门设计的测试题。

来自主题: AI技术研报

7803 点击 2025-10-18 12:08

破解空间智能数据稀缺难题，影石开源DiT架构全景生成模型，在线可玩

空间智能领域的全景数据稀缺问题，有解了。影石研究院团队，推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架，DiT360能够实现高质量的全景生成。

来自主题: AI技术研报

7263 点击 2025-10-18 12:02

ICCV 2025 | 浙大、港中文等提出EgoAgent：第一人称感知-行动-预测一体化智能体

在今年的国际计算机视觉大会（ICCV 2025）上，来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。

来自主题: AI技术研报

8095 点击 2025-10-18 11:48

OpenAI最新业务：找了个黑洞物理科学家

OpenAI新研究团队，刚刚曝光了——OpenAI for Science，致力于构建加速数学和物理领域新发现的人工智能系统。

来自主题: AI资讯

7933 点击 2025-10-17 16:39

实测 Manus 1.5 版本：Agent 能力全方面提升，轻松生成复杂应用

Manus 1.5 全面提升了任务执行的速度、可靠性与结果质量。从研究分析到网页开发、再到 PPT 创建，在各类任务场景中均实现了显著性能跃升。此次更新引入了两款 Agent：

来自主题: AI资讯

9818 点击 2025-10-17 10:55

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

8407 点击 2025-10-17 09:48

一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军

加州大学伯克利分校等机构的研究人员，近日推出了一种全新的基因组语言模型GPN-Star，可以将全基因组比对和物种树信息装进大模型，在人类基因变异预测方面达到了当前最先进的水平。

来自主题: AI技术研报

10449 点击 2025-10-16 12:19

Sutton判定「LLM是死胡同」后，新访谈揭示AI困境

在这个新访谈中，Sutton 与多位专家一起，进一步探讨 AI 研究领域存在的具体问题。

来自主题: AI资讯

9044 点击 2025-10-16 11:47

NeurIPS 25 | 中大&UC Merced等开源RAPID Hand，重新定义多指灵巧手数据采集

在最近的一篇 NeurIPS 25 中稿论文中，来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。

来自主题: AI技术研报

9650 点击 2025-10-16 10:52