基于多模态大语言模型以及提示词工程的数据集自构建方法
申请号:CN202510813010
申请日期:2025-06-18
公开号:CN120849942A
公开日期:2025-10-28
类型:发明专利
摘要
本发明提供一种基于多模态大语言模型的数据集自构建方法,属于机器人技术领域。本发明针对家庭服务机器人领域中传统数据集在多模态关联、动态场景建模与时序约束等方面的不足,设计了结构化的Prompt框架,通过结合语言‑视觉特征对齐技术与层次化任务分解策略,实现了用户自然语言指令到机器人执行动作的可靠映射,构建了面向真实家庭复杂场景的数据集数据集。并且,本发明通过建立时空约束模型并设计了双层验证机制,有效提升了多模态大语言模型生成动作序列的执行合理性和任务连贯性。
技术关键词
家庭服务机器人
大语言模型
多模态
视觉特征
文本编码器
验证机制
语义
融合特征
节点
末端执行器
仿真平台
注意力机制
图像
场景
数据输入结构
线性时序逻辑