摘要
本发明涉及一种基于自适应多模态信息融合的人物观点提取方法,属于视频人物观点提取技术领域,本发明基于自适应的多模态的信息特征融合,完成了说话人物身份的识别;通过融合视觉信息以及音频信息,并使用自适应权重进行融合,不同模态可以根据实际任务的重要性自适应调整权重,增强模型的灵活性和稳健性;本发明利用图神经网络GNN提取观点,通过其多层消息传递机制实现跨多个节点的推理能力,帮助系统识别出更复杂的观点关系和隐含的结论,即使某些发言人未明确表达他们的观点,图神经网络GNN可以通过邻居节点的传播信息推断出该发言人的潜在态度。