AI资讯新闻榜单内容搜索-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: R1
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。

来自主题: AI技术研报
7015 点击    2025-05-12 14:51
阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首

近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果:DianJin-R1。

来自主题: AI技术研报
7050 点击    2025-05-03 16:21
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报
6922 点击    2025-05-02 20:21
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

昆仑万维Skywork-R1V 2.0版本,开源了!这一次,它的多模态推理实现了再进化,成为最强高考数理解题利器,直接就是985水平。而团队也大方公开了各项技术秘籍,亮点满满。可以说,R1V 2.0已成为团队AGI之路上的又一里程碑。

来自主题: AI技术研报
6847 点击    2025-04-24 17:54
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报
6665 点击    2025-04-23 14:04
142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

DeepSeek-R1是近年来推理模型领域的一颗新星,它不仅突破了传统LLM的局限,还开启了全新的研究方向「思维链学」(Thoughtology)。这份长达142页的报告深入剖析了DeepSeek-R1的推理过程,揭示了其推理链的独特结构与优势,为未来推理模型的优化提供了重要启示。

来自主题: AI技术研报
7846 点击    2025-04-22 18:59
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。

来自主题: AI技术研报
6864 点击    2025-04-22 09:02