ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。