摘要
本发明公开了一种基于多模态时空图网络的直播电商产品的检索方法,通过RealtimeSTT工具将语音数据实时转换为文本,利用图像识别与视频分析技术提取关键信息并生成特征数据,将图像、视频和文本三种不同模态的信息的全局表征对齐到统一语义空间,计算均方误差度量视觉和文本嵌入在相同空间内的一致性。通过构建图结构,深入挖掘视频与图像之间的时空关系,有效解决跨域异质性问题,并引入调节视觉和文本特征的全局权重,将视觉与文本特征融合生成联合表示,从而满足多样化的检索需求,显著提升直播与电商平台之间产品检索的准确性,提升了检索系统的鲁棒性和适应性,特别适用于复杂的多模态商品检索任务。