摘要
本发明涉及人工智能技术领域,可应用于具身智能、金融科技及医疗健康等业务场景中,公开了一种基于任务理解表征的控制方法、装置、设备及介质,包括:获取待处理场景的环境图像和用于指定操作任务的任务指令,利用视觉编码器处理环境图像生成视觉特征向量,利用语言编码器处理任务指令生成语义表示,融合视觉特征向量与语义表示得到融合特征,将融合特征输入预训练模型生成任务理解表征,使用基于扩散模型和流匹配技术的动作解码器生成动作序列,依据动作序列控制执行装置执行操作。本发明通过融合多模态信息并引入任务理解机制,结合扩散模型与流匹配技术生成高可靠性的动作序列,能够在复杂环境下提升对多变任务指令的响应能力与操作的精准性。