AI资讯新闻榜单内容搜索-RFT

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: RFT

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

10026 点击 2025-09-09 10:49

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

8201 点击 2025-07-11 16:30

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

来自主题: AI技术研报

8336 点击 2025-07-02 15:35

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。

来自主题: AI技术研报

11260 点击 2025-05-27 16:53

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

7026 点击 2025-04-09 09:14

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

6060 点击 2025-03-05 13:39

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

8403 点击 2025-03-04 20:09

上一页当前第1页,共1页下一页