摘要
本发明公开了基于大模型智能体的多模态数据融合方法及系统,属于人工智能、大数据处理以及智能体技术领域,本发明要解决的技术问题为如何利用大模型智能体有效整合文本、图像、语音等不同模态的数据,提升智能体的感知、认知以及决策能力,采用的技术方案为:数据采集与预处理:通过网络爬虫、API接口、摄像头及麦克风设备采集文本、图像及语音多种模态数据,并对采集的数据进行预处理,获取预处理后的多模态数据,确保数据质量;特征提取与映射:通过CNN及Transformer模型从预处理后的多模态数据中提取对应的各模态特征,将不同模态特征映射到同一空间,并将对齐后的特征进行组合,形成综合特征表示;多模态融合处理;智能决策与反馈。