AI资讯新闻榜单内容搜索-奖励模型

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9380 点击 2025-10-23 12:28

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首

OpenAI重磅结构调整：ChatGPT「模型行为」团队并入Post-Training，前负责人Joanne Jang负责新成立的OAI Labs。而背后原因，可能是他们最近的新发现：评测在奖励模型「幻觉」，模型被逼成「应试选手」。一次组织重组+评测范式重构，也许正在改写AI的能力边界与产品形态。

来自主题: AI技术研报

8674 点击 2025-09-07 12:20

ACL 2025｜驱动LLM强大的过程级奖励模型（PRMs）正遭遇「信任危机」？

近年来，大型语言模型（LLMs）在复杂推理任务中展现出惊人的能力，这在很大程度上得益于过程级奖励模型（PRMs）的赋能。PRMs 作为 LLMs 进行多步推理和决策的关键「幕后功臣」，负责评估推理过程的每一步，以引导模型的学习方向。

来自主题: AI技术研报

7156 点击 2025-07-28 10:49

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

7787 点击 2025-07-12 11:58

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为AI迈向AGI进程中的关键技术节点。然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报

7118 点击 2025-07-12 11:51

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

6886 点击 2025-07-11 16:30

4000万样本炼出AI读心术，刷新七榜SOTA，最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布！巧妙构建超高质量的千万级人类偏好样本，刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数，小体积也能媲美大模型性能。

来自主题: AI技术研报

7396 点击 2025-07-05 14:00

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

7651 点击 2025-07-05 12:10

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

7843 点击 2025-07-04 09:44

周志华团队新作：LLM中存在奖励模型，首次理论证明RL对LLM有效性

将大语言模型（LLMs）与复杂的人类价值观对齐，仍然是 AI 面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习（RLHF）。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分，最终对齐后的 LLM 的质量在根本上取决于该奖励模型的质量。

来自主题: AI技术研报

8753 点击 2025-07-03 10:00