AI资讯新闻榜单内容搜索-

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

通过过程奖励模型（PRM）在每一步提供反馈，并使用过程优势验证器（PAV）来预测进展，从而优化基础策略，该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率，显著提升了解决复杂问题的能力。

来自主题: AI技术研报

6954 点击 2024-11-16 15:41

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

多智能体系统，可自动化整个 ML 工作流程，节省数千小时工时。

来自主题: AI资讯

9840 点击 2024-11-16 15:33

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景，该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM，在无需训练的情况下，取得了良好的开放式 (Open-ended) 目标检测和实例分割结果，论文已被 NeurIPS 2024 录用。

来自主题: AI技术研报

4524 点击 2024-11-16 15:21

AI原生游戏要怎样做？一个小团队可能找对了方向

生成式AI技术不断进步，但能打动玩家的仍是设计背后与人有关的部分。

来自主题: AI资讯

7051 点击 2024-11-16 15:15

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

近日，中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数据集存在多类数据损坏这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性，为机器人控制、自动驾驶等领域的鲁棒学习奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems（NeurIPS 2024）。

来自主题: AI技术研报

4642 点击 2024-11-16 15:13