AI资讯新闻榜单内容搜索-o1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: o1
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型

近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报
6389 点击    2025-08-01 16:08
SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来,OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制,强化学习使模型能够发展出可泛化的推理策略,在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报
4240 点击    2025-07-31 10:10
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭

超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭

超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭

小时候完成月考测试后,老师会通过讲解考试卷中吃错题让同学们在未来取得好成绩。

来自主题: AI技术研报
7472 点击    2025-07-23 10:20
o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码

o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码

o1核心贡献者离职后首发声:AI是史上最强杠杆,超越人力、资本和代码

又一位离职OpenAI的核心研究员发声! 刚刚被曝加入Meta的Hyung Won Chung,分享了他对AI未来的深刻思考:人工智能正在成为有史以来最强大的杠杆机制。

来自主题: AI资讯
7614 点击    2025-07-18 14:28
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免

大模型数学能力骤降,“罪魁祸首”是猫猫?只需在问题后加一句:有趣的事实是,猫一生绝大多数时间都在睡觉。

来自主题: AI资讯
5920 点击    2025-07-05 20:35
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
8297 点击    2025-06-27 10:03
10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

扩散模型在视频合成任务中取得了显著成果,但其依赖迭代去噪过程,带来了巨大的计算开销。尽管一致性模型(Consistency Models)在加速扩散模型方面取得了重要进展,直接将其应用于视频扩散模型却常常导致时序一致性和外观细节的明显退化。

来自主题: AI技术研报
8677 点击    2025-06-19 10:13