Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

6173点击 2025-07-31 11:02

近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiable Rewards, RLVR) 技术的加持。RLVR 依赖于参考信号, 即通过客观标准答案来验证模型响应的可靠性。这种方法在具有明确定义解决方案的任务中特别有效, 如数学推理和代码生成, 其中简单的基于规则的验证器可以提供清晰的二元信号 (正确或错误)。但是, AI 在 "写作" 这种没有标准答案、评价高度主观的任务上, 总是差点意思。比如, AI 写的文章容易啰嗦、解释冗余、甚至自卖自夸, 难以真正打动人心。

这里分享一篇文章们最近提出的 Writing-Zero, 在以 Creative Writing 为代表的 Non-Verifiable Tasks 领域首次尝试利用 Reasoning GenRM 来进行的 RLVR 训练

标题: Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards

地址: https://arxiv.org/pdf/2506.00103

公司: 夸克 LLM, 阿里

为什么 AI 写作这么难?

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

现在的 LLM 训练过程中, 针对不同的 Tasks, 存在一个从可验证到不可验证的连续谱 (Spectrum):

一端是数学和编程等可验证问题 (Verifiable Tasks)

中间是多学科问答 (Multi-Subject QA) 等结构化程度较低的问题

另一端是创意写作 (Creative Writing)、多轮对话 (Multi-Turn Dialogue) 等缺乏参考答案且需要基于人类偏好 (Human Preferences) 进行质量评估的不可验证问题

对于较难验证或不可验证的问题, 现有研究主要依赖于通过人类偏好数据训练的标量奖励模型 (Scalar Reward Model) 进行 RLHF (Reinforcement Learning from Human Feedback) 训练。传统的 AI 写作训练, 就是主要靠 "人类偏好打分" 来指导模型, 但这种方法有两个大问题:

1.泛化能力差: 人类打分的数据有限, 模型学到的只是 "表面套路"。

2.Reward Hacking: 容易被 "投机取巧", 比如 AI 发现 "写得越长、解释越多" 就能拿高分, 于是疯狂灌水, 内容质量反而下降。

Writing-Zero: 让 "主观任务" 也能有 "可验证奖励"!

研究目标 && 关键创新点

基于以上工作, 我们能发现一个明显趋势: RLVR 的应用场景正在从 Verifiable 任务向 Non-Varifiable 任务演变, 而近期出的 Reasoning GenRM 的有效性, 给 Non-Varifiable Tasks 提供 Verifiable Rewards 指明了方向。当下最显而易见的问题是: 怎么使用 GenRM, 在 Non-Varifiable Tasks 上, 通过 RLVR 取得稳定、Scalable 的提升? 因此, 我们旨在弥合不可验证任务和可验证奖励之间的差距, 为不可验证的写作任务提出新的训练范式。

具体而言, 我们提出了一套全新的训练范式, 首次让 AI 在 "写作" 这种主观任务上, 也能像做数学题一样获得 "可验证" 的奖励信号, 主要包含以下三个关键创新点:

1.Pairwise Writing Generative Reward Model

基于 SPCT, 我们设计了一套 "写作原则 + 自我批判" 的奖励模型, 让 AI 自己学会用一套通用 + 特定的写作标准, 去比较两篇文章的优劣, 并给出 0-10 分的细致打分。这样, 主观评价也能变得 "可验证", 极大减少了灌水、冗余解释等 "Reward Hacking" 现象。

使用 RLVR 来改进 GenRM 的能力, 使其能够针对不同的写作场景和多样化的响应对制定适应性原则和细微的批评。

2.Bootstraped Relative Policy Optimization (BRPO)

传统 RL 方法需要一个 "标准答案" 做参考, 但写作没有标准答案怎么办? 我们提出了 "自举" 机制: 每次让 AI 自己生成一组答案, 随机选一个当 "临时参考", 再用 GenRM 做两两比较, 实现了动态选择组内样本作为临时参考进行成对比较和优势估计。这样, 模型能不断和自己 "较劲", 持续进步, 无需人工标注。

3.Writing-Zero 无需监督微调, 直接 RL 训练, 探索 LLM 在没有监督数据的情况下发展写作能力的潜力

我们用 Qwen3-32B-Base 大模型, 完全不做人工监督微调, 直接用上述方法训练, 模型写作能力持续提升, 且对 "Reward Hacking" 现象有极强免疫力。

Pairwise Writing GenRM

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

参考 Deepseek-GRM 的方法, Pairwise Writing GenRM 分成 4 个步骤进行训练:

1.数据筛选: 从原始 Preference 数据 (之前 Scalar RM 的人工标注训练数据) 中筛选出高质量的数据

2.Prompt 设计

输入两个 Response, Self-Princepled Critique 之后得到两个分数

Prompt 如下所示

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

3.Cold-Start Data Collection

通过采样 Claude-3.5-Sonnet 收集数百条冷启数据

RFT 方式蒸馏到 Qwen3-32B-Base

4.通过 RLVR (GRPO) 优化 GenRM, 判断 Preference 预测是否正确, 相关训练细节如下:

Reward 组成:

Score Reward: 预测的两个分数是否符合 Preference, 如果 Chosen > Rejected, Reward = 1; Chosen < Rejected, Reward = -1; 相等时 Reward = 0

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Format Reward: 格式是否符合要求

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Score Margin: 为了让模型能够有效区分细粒度的区别, 我们对打分相近的结果进行惩罚

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Position Bias: 在计算 Advantage 的时候消除位置偏差, 能够有效降低 Preference Ratio 的方差

当 Response_1 是 Chosen , Response_2 是 Rejected, Adv * RM 偏向 Response_2 位置的 Global Ratio
当 Response_2 是 Chosen , Response_1 是 Rejected, Adv * RM 偏向 Response_1 位置的 Global Ratio

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Dynamic Sampling:对Score 全为0或全为1的 Prompt 进行 Drop

GenRM 实验结果

GenRM 的 RL 效果:

训练过程中 Drop Rate 逐渐升高, 越来越多的 Prompt 得分 Score 全为 0 或全为 1

测试集上 Test Reward 稳定提升

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

在 RM 的 Benchmark 上取得不错的成绩 (前两个是内部测试集, 后两个是开源测试集)

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

具备 Test-Time Scaling 的能力

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Bootstraped Relative Policy Optimization (BRPO)

Non-Varifiable Tasks 和其他任务最大的区别是没有标准答案, Ground Truth Answres。为此我们通过 Policy Model 自举 (Bootstrap) 的方式随机采样得到一个 Reference 做一个相对 (Relative) 的比较。

我们提出的 BRPO 是对 GRPO 的一种改进, 具体地

在每次 Group Rollout 时, 我们会随机采样一个 Response 作为 Reference, 和 Group 内其他组成 Pair, 并给 GenRM 进行对比和打分

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

新的 Advantage 算法: 和 GRPO 的 Normalized Advantage 减去均值不同, 因为 Reward 本身已经是 Relative 的, 我们直接使用 Reward 作为 Advantage, 不用减去均值; 同时也没必要除以标准差, 因为随机采样 Reference 以及接下来对 Prompt 的动态采样本身保证了 Adv 的分布的稳定。

Dynamic Sampling: 在训练的过程中, Policy 的写作能力会一直增长, 为了避免 GenRM 对于采样作为 Reference 的 Response 的 OOD 的行为 (Reference Response 中的一些特殊 Pattern 让 GenRM 对所有和它比较的 Response 都打出落败或胜出的结果), 我们将 Group 打分过高和过低的 Prompt 进行过滤

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

实验结果

Writing-Zero: 在我们内部专门训练的文创 Eval RM 上, GenRM 训练稳定且达到了 SFT + RL 的效果, Scalar RM 训练不稳定且很早就出现明显的 Hacking 问题

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Writing-R1: 在我们内部文创测试集 Writing Testset 上胜出, 同时人工送评对比 SFT、SFT + Scalar RL 的 GSB 也胜出

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

我们内部的 Eval RM 和 Writing Testset 已经多次用于线上模型筛选, 和人工评估一致性较高

WritingBench 对 Qwen3-32B-Base-Scalar-RM-RLHF 模型的胡言乱语等 Hacking 现象无法有效识别, 因此置信度不如 Writing Testset

Case 分析

通过对比下面 3 个 Case, 可以发现 GenRM 训练出来的模型更加人性化和有文艺气息。

Case 1: 请为陪伴 15 年的猫咪设计告别卡片文字, 要体现我和猫咪的深厚感情

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Case 2: 作为《罗马假日》影迷, 在西班牙台阶拍摄打卡照时需要配文, 要求含蓄致敬经典但避免直接引用台词

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

Case 3: 你的朋友刚失恋, 想去他家探望。给他发条信息, 用食物隐喻表达你的安慰, 既不直接提及失恋又能让他感受到你的理解和支持。

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

讨论

文创场景的 Reward hacking

Scalar RM 在 RL 训练中比较常见的 Hacking 现象: 过度解释、谄媚、长度越训越长, GenRM 表现出对 Hacking 问题的抗性。

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

GenRM 的位置偏差问题和 Test-Time Scalability

在冷启动阶段后, 模型表现出明显的位置偏好 (倾向于给后一个响应更高的分数), 这种偏差在强化学习阶段可以自动校准, 通过引入额外的权重项, 成功降低了偏好比例的方差。

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

GenRM 可以通过交换位置、多次采样投票的方式提高 RM 和 RL 的效果, 当 GenRM 的效果提升之后, Test-time scaling 的潜在收益会更值得挖掘。比如, 在 GenRM voting 数量超过 1 的情况下, 有可能出现预测不一致的问题, 我们预期只鼓励稳定胜出 Reference 的样本, 对于不一致的结果, 可以不鼓励也可以打压。

Intuition Behind Reference Selection of BRPO

文创场景和 QA 问答等场景最大的区别在于, 没有 Ground-Truth Answer 标准答案作为参考, "文无第一", Reward 好坏只能通过比较出来的。

我们初步实验有考虑保留每次 Group Rollout 中最好的一个 Response 作为下次训练用于比较的 Reference, 但是我们发现在训练过程中, Policy 的整体效果已经有很大的提升, 使用旧 Reference 会引入 Offline 问题, 影响效果。而且我们始终是在做 Relative 的比较, 而不是绝对的排序, 无法通过 Pairwise 的结果来得到一个最终 Listwise 的顺序, 要想有绝对顺序还需要引入 Pointwise 的 RM, 如无必要勿增实体。于是最终有了 BRPO 的 Policy 自举比较的方法。

研究意义

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像

我们的工作代表了在 RLVR 训练框架下统一不同奖励建模范式的最后一块拼图, 通过利用具有自原则批评 (Self-Principled Critique) 的成对生成式奖励建模 (Pairwise Generative Reward Modeling), 即使是创意写作 (Creative Writing) 等不可验证的任务也能从稳定和可扩展的强化学习训练中受益。这为统一三种主要的 Reward Modeling Approaches 铺平了道路:

基于规则的奖励 (Rule-Based Rewards): 用于明确定义的任务 (Well-Defined Tasks)

基于模型的奖励 (Model-Based Rewards): 用于具有参考答案 (GT Answers) 的较少结构化任务

基于模型的奖励 (Model-Based Rewards): 用于没有参考答案的创意任务 (Creative Tasks)

我们的工作为建立全面且一致的 RLVR (Reinforcement Learning with Verifiable Rewards) 训练范式铺平了道路, 该范式可以应用于从高度可验证 (Highly Verifiable) 到完全不可验证 (Completely Non-Verifiable) 的整个语言任务谱系 (Spectrum of Language Tasks)。

Future work

基于 Reasoning GenRM 在 Creative Writing 任务上的出色效果, 我们正在进行在 GenRM + Non-Verifiable Tasks 的下一阶段探索, 相关的报告也在整理中, 很快就会发布出来, 主要有以下核心工作:

1.引入 GenRM 和 Writing Model 的对抗训练来进一步提升最终模型的效果

2.魔改 Verl, 支持 Multi Models Pipeline Training + Rollout, 并复用同一 GPU Group 资源 (主要是卡少, 否则可以直接开多个 Group)

AI 写作的 "天花板" 其实是奖励机制的天花板, 我们希望通过 Writing-Zero, 推动 AI 从 "会写" 到 "写得好", 让 AI 真正成为人类创意的得力助手。如果你对 AI 写作、奖励建模、RLHF 等话题感兴趣, 欢迎留言交流, 或阅读我们的论文原文!

文章来自于微信公众号“夕小瑶科技说”。

关键词: AI , AI写作 , Writing-Zero , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

Writing-Zero: 打破 AI 写作天花板, 让 AI 写作更像"人"

为什么 AI 写作这么难?

相关工作

Writing-Zero: 让 "主观任务" 也能有 "可验证奖励"!

实验结果

讨论