摘要
本申请公开了一种基于多模态交互的人宠对讲方法及系统,涉及人工智能领域。该方法包括:接收用户设备端针对目标宠物发送的对话信号,根据本地语言库确定对话信号对应的动物语音信息,本地语言库包括每种对话信号与动物语音信息之间的对应关系;获取目标宠物针对对话信号的实时反映数据,实时反映数据包括目标宠物的声音数据、动作图像数据和环境数据;将实时反映数据输入至多模态翻译模型,得到目标宠物针对对话信号做出回应的翻译结果,并将翻译结果发送至用户设备。本申请实施例中翻译结果中整合了声音数据、动作数据和环境数据,实现了数据的高效融合,提升了翻译可靠性的同时解决了低置信度误判率高的问题,提升了人宠交互的准确性与适应性。