一种基于多模态时空图网络的直播电商产品的检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态时空图网络的直播电商产品的检索方法
申请号:CN202510595154
申请日期:2025-05-09
公开号:CN120492670A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于多模态时空图网络的直播电商产品的检索方法,通过RealtimeSTT工具将语音数据实时转换为文本,利用图像识别与视频分析技术提取关键信息并生成特征数据,将图像、视频和文本三种不同模态的信息的全局表征对齐到统一语义空间,计算均方误差度量视觉和文本嵌入在相同空间内的一致性。通过构建图结构,深入挖掘视频与图像之间的时空关系,有效解决跨域异质性问题,并引入调节视觉和文本特征的全局权重,将视觉与文本特征融合生成联合表示,从而满足多样化的检索需求,显著提升直播与电商平台之间产品检索的准确性,提升了检索系统的鲁棒性和适应性,特别适用于复杂的多模态商品检索任务。
技术关键词
文本 检索方法 多头注意力机制 图像编码器 相互作用模块 电商 全局视觉特征 图像视觉特征 定义 视频分析技术 视频帧 图像块 多模态信息 关系 时序