AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

英伟达笑到最后!训练2000步,1.5B逆袭7B巨兽,Scaling真来了

强化学习可以提升LLM推理吗?英伟达ProRL用超2000步训练配方给出了响亮的答案。仅15亿参数模型,媲美Deepseek-R1-7B,数学、代码等全面泛化。

来自主题: AI技术研报
6517 点击    2025-06-22 16:32
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 “会说话” 的 LLM,更是 “能解释” 的 LLM。

来自主题: AI技术研报
7845 点击    2025-06-22 16:25
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

只靠强化学习,AGI就能实现?Claude-4核心成员放话「5年内AI干掉白领」,却被Karpathy等联手泼冷水!持续学习真的可能吗?RL的真正边界、下一代智能的关键转折点到底在哪儿?

来自主题: AI资讯
6953 点击    2025-06-22 16:13
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5820 点击    2025-06-22 16:08
7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

7B智能体仅凭9个任务训练即超越R1!上交大打造AI-for-AI新范式

尽管人工智能(AI)在飞速发展,当前 AI 开发仍严重依赖人类专家大量的手动实验和反复的调参迭代,过程费时费力。

来自主题: AI技术研报
6834 点击    2025-06-22 15:58
知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。

来自主题: AI技术研报
6164 点击    2025-06-22 11:34
三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程

三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程

三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程

随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。

来自主题: AI技术研报
5598 点击    2025-06-21 18:31