AI资讯新闻榜单内容搜索-强化学习

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 强化学习
独家|姚颂三度创业,Striding AI获近亿美元融资入局物理智能

独家|姚颂三度创业,Striding AI获近亿美元融资入局物理智能

独家|姚颂三度创业,Striding AI获近亿美元融资入局物理智能

公司由姚颂联合正大集团、清华青年学者于超共同发起,定位为物理智能系统公司,通过世界动作模型(WAM)与强化学习技术,推动机器人在真实商业与工业场景中落地,最终成为一个可信赖的机器人服务提供商。目前已完成近亿美元天使轮系列融资,投资方包括正大集团、华勤技术、九安医疗等多家上市企业,多位国内与国际知名企业家,以及多家一线投资机构。

来自主题: AI资讯
7795 点击    2026-06-24 21:41
真机强化学习如何保证安全性?清华团队提出安全探索均衡机制

真机强化学习如何保证安全性?清华团队提出安全探索均衡机制

真机强化学习如何保证安全性?清华团队提出安全探索均衡机制

近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。

来自主题: AI技术研报
6437 点击    2026-06-24 16:03
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集

来自主题: AI技术研报
7454 点击    2026-06-20 10:21
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报
6983 点击    2026-06-18 11:25
ICML 2026 | Agentic强化学习训练的信息自锁问题

ICML 2026 | Agentic强化学习训练的信息自锁问题

ICML 2026 | Agentic强化学习训练的信息自锁问题

随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。

来自主题: AI技术研报
5858 点击    2026-06-17 14:05
图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

图灵奖得主Sutton新作:AI的下一步,是走向「生成认知」

从 LLM 的超长文本处理、视频生成模型的以假乱真、Agent 自主规划与执行的日趋成熟,到 VLA、世界模型等开始进入物理世界,AI 正在不断拓宽其能力边界。

来自主题: AI技术研报
6613 点击    2026-06-02 15:05
独家丨美团领投 A 轮, Mindverse 总融资 5000 万美元,打造持续学习的 Agent 模型

独家丨美团领投 A 轮, Mindverse 总融资 5000 万美元,打造持续学习的 Agent 模型

独家丨美团领投 A 轮, Mindverse 总融资 5000 万美元,打造持续学习的 Agent 模型

Mindverse 完成由美团领投的 A 轮融资,元禾璞华、韶音、变量资本和老股东追加跟投。Mindverse (心洲科技) 是少数把赌注押在模型「内部」的一家创企,它在通用大模型的基础上,用强化学习让它从复杂、多步骤的真实任务中学会如何把事做成,让模型从「知道很多」变为「能办好事」。

来自主题: AI资讯
8783 点击    2026-06-01 19:20
DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

DiffusionOPD:复旦联合通义万相提出扩散模型「在线策略蒸馏」新范式,让学⽣模型同时学会构图、⽂字与美学

近期,来自复旦大学与阿里巴巴通义万相的研究团队对此提出了新的思考。他们认为,多任务强化学习不应被视为一个统一优化问题,而应该解耦为两个彼此独立的过程:单任务的在线策略探索 & 多任务能力整合。

来自主题: AI技术研报
8379 点击    2026-05-30 10:49
告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

今年以来,在线策略蒸馏 OPD(On-Policy Distillation)已经逐渐成为大厂 LLM 后训练中的重要组件,例如 DeepSeek-V4,GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力,相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报
7172 点击    2026-05-26 10:07
独家|前 Kimi 后训练负责人宋鸿涌创业,聚焦通用机器人基座模型

独家|前 Kimi 后训练负责人宋鸿涌创业,聚焦通用机器人基座模型

独家|前 Kimi 后训练负责人宋鸿涌创业,聚焦通用机器人基座模型

AI科技评论独家消息,前月之暗面后训练与强化学习负责人宋鸿涌(Flood Sung)已于 2025 年 12 月离职,创立机器人公司「北京十六号机器人科技有限公司」(XVI Robotics),公司业务方向聚焦通用人形机器人基座模型。

来自主题: AI资讯
9415 点击    2026-05-22 10:09