字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题
5944点击    2025-06-19 11:31

AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。


为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。


在70亿参数(7B)规模上实现SOTA。


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


实验结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。


方法:SeqPO-SiMT序贯策略优化


针对以上难点,研究团队提出SeqPO-SiMT框架。其核心思想是将同声传译任务建模为一个序贯决策问题,综合评估整个翻译流程的翻译质量和延迟,并对整个决策序贯进行端到端的优化。


该方法的主要特点是:它不再孤立地评估每一步决策的好坏,而是将一整句话的翻译过程视为一个整体,即形成一个完整决策序贯,更符合人类对同传的评估过程。


同声传译采样阶段


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


优化阶段


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


结果与分析:翻译质量媲美Qwen-2.5-7B离线翻译水平


研究团队在多个公开的英汉互译测试集上进行了实验,并与多种现有同传模型进行对比。实验结果显示:在低延迟水平下,SeqPO-SiMT框架生成的译文质量相较于基线模型有明显提升。


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


与多个高性能模型的离线翻译结果进行对比,结果显示,SeqPO-SiMT的翻译质量不仅优于监督微调(SFT)的离线模型及LLaMA-3-8B,其表现甚至能媲美乃至超越Qwen-2.5-7B的离线翻译水平。这表明该方法在70亿参数(7B)规模上实现了业界顶尖(SoTA)的性能


字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题


SeqPO-SiMT为解决同声传译中的“质量-延迟”权衡问题提供了一个新的视角,它强调了对决策“序贯”进行整体优化的重要性。该方法对于需要进行实时、连续决策的自然语言处理任务具有一定的参考意义,并为未来开发更高效、更智能的同声传译系统提供了有价值的探索。


论文链接:https://arxiv.org/pdf/2505.20622


文章来自于微信公众号“量子位”。


关键词: AI , 模型训练 , SeqPO-SiMT , AI同传
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner