摘要
本发明提供一种视听觉跨模态物体材质检索方法及系统,涉及人工智能技术领域。该视听觉跨模态物体材质检索系统,包括:数据采集,采集包含多种材质物体的视觉图像和相应的音频数据;特征提取,分别对视觉和听觉数据进行特征提取,视觉特征包括但不限于颜色、纹理和形状,听觉特征包括但不限于频谱特征和时域特征;特征融合,设计一个融合算法,将视觉和听觉特征进行有效融合,形成跨模态特征表示;检索模型,该模型能够学习跨模态特征与物体材质之间的映射关系。通过结合视觉和听觉信息,系统能够更全面地理解物体的特性,视觉信息可以提供物体的外观特征,而听觉信息可以提供关于物体材质的动态特性,这种融合有助于提高材质识别的准确性。