基于任务理解表征的控制方法、装置、设备及介质

申请号：CN202511051740

申请日期：2025-07-29

公开号：CN120871706A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于具身智能、金融科技及医疗健康等业务场景中，公开了一种基于任务理解表征的控制方法、装置、设备及介质，包括：获取待处理场景的环境图像和用于指定操作任务的任务指令，利用视觉编码器处理环境图像生成视觉特征向量，利用语言编码器处理任务指令生成语义表示，融合视觉特征向量与语义表示得到融合特征，将融合特征输入预训练模型生成任务理解表征，使用基于扩散模型和流匹配技术的动作解码器生成动作序列，依据动作序列控制执行装置执行操作。本发明通过融合多模态信息并引入任务理解机制，结合扩散模型与流匹配技术生成高可靠性的动作序列，能够在复杂环境下提升对多变任务指令的响应能力与操作的精准性。

技术关键词

执行装置语言编码器融合特征预训练模型运动轨迹规划序列语义生成动作融合视觉特征指令图像解码器噪声上下文特征多光谱成像设备融合多模态信息注意力末端执行器