AI资讯新闻榜单内容搜索-框架

任意Agent皆可强化学习！微软推出Agent Lightning框架，无需修改任何代码

AI Agent已逐渐从科幻走进现实！不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务，甚至还可以进行端到端的软件开发，已经在金融、游戏、软件开发等诸多领域落地应用。

来自主题: AI技术研报

8957 点击 2025-10-11 11:44

协同加速，多机器人协作不再「慢半拍」！软硬一体化框架ReCA破解具身智能落地效率瓶颈

为了打破这一僵局，来自佐治亚理工学院、明尼苏达大学和哈佛大学的研究团队将目光从单纯的「成功」转向了「成功且高效」。他们推出了名为 ReCA 的集成加速框架，针对多机协作具身系统，通过软硬件协同设计跨层次优化，旨在保证不影响任务成功率的前提下，提升实时性能和系统效率，为具身智能落地奠定基础。

来自主题: AI技术研报

8693 点击 2025-10-11 11:32

NeurIPS 2025 Spotlight | 只需一条演示，DexFlyWheel框架让机器人学会「自我造数据」

近期，北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。该框架仅需单条演示即可启动任务，自动生成多样化的灵巧操作数据，旨在缓解灵巧手领域长期存在的数据稀缺问题。目前已被 NeurIPS 2025 接受为 Spotlight（入选率约 3.2%）

来自主题: AI技术研报

9786 点击 2025-10-10 10:26

开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

具体而言，Verlog 是一个多轮强化学习框架，专为具有高度可变回合（episode）长度的长时程（long-horizon） LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上，并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则，引入了一系列专门优化手段，从而在任务跨度从短暂交互到数百回合时，依然能够实现稳定而高效的训练。

来自主题: AI技术研报

6772 点击 2025-10-09 11:16

从「知题」到「知人」：UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案：UserBench —— 首次将 “用户特性” 制度化，构建交互评测环境，用于专门检验大模型是否真正 “懂人”；UserRL —— 在 UserBench 及其他标准化 Gym 环境之上，搭建统一的用户交互强化学习框架，并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报

9081 点击 2025-10-08 11:45

EMNLP 2025 | CARE：无需外部工具，让大模型原生检索增强推理实现上下文高保真

近日，来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架，一个新颖的原生检索增强推理框架，教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。该框架现已全面开源，包括训练数据集、训练代码、模型 checkpoints 和评估代码，为社区提供一套完整的、可复现工作。

来自主题: AI技术研报

7822 点击 2025-10-07 22:10

机器人“狂踹不倒”视频刷屏！太空舱遍布城市街巷，银河通用这几手秀麻了

连续飞踢一台机器人30秒会发生什么？那么，是什么让这台机器人怎么踹都踹不倒呢？答案就出自银河通用的全新通用动作追踪框架——Any2Track。

来自主题: AI技术研报

8020 点击 2025-10-06 14:02

用两个简单模块实现分割理解双重SOTA！华科大白翔团队等推出多模态新框架

多模态大模型需要干的活，已经从最初的文生图，扩展到了像素级任务（图像分割）。

来自主题: AI技术研报

7529 点击 2025-10-03 14:40

斯坦福洗碗机器人新作！灵巧手跟人学采茶做早餐，CoRL 2025提名最佳论文

来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡耐基梅隆大学、英伟达提出了一种数据采集与策略学习框架DexUMI——利用人手作为自然接口将灵巧操作技能迁移至多种灵巧手。该框架通过硬件与软件的双重适配，最大限度缩小人手与各类灵巧手之间的具身差异。

来自主题: AI资讯

9902 点击 2025-10-03 11:46

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

蚂蚁通用人工智能中心自然语言组联合香港大学自然语言组（后简称“团队”）推出PromptCoT 2.0，要在大模型下半场押注任务合成。实验表明，通过“强起点、强反馈”的自博弈式训练，PromptCoT 2.0可以让30B-A3B模型在一系列数学代码推理任务上实现新的SOTA结果，达到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相当的表现。

来自主题: AI技术研报

7786 点击 2025-10-01 17:12