一种多模态感知与认知数据集的构建方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态感知与认知数据集的构建方法和装置
申请号:CN202411960488
申请日期:2024-12-30
公开号:CN119380343A
公开日期:2025-01-28
类型:发明专利
摘要
本发明提供了一种多模态感知与认知数据集的构建方法和装置,获取图像信息,该图像信息包括智能体自身的摄像头实时抓取的画面;根据图像信息构建知识图谱;其中,该知识图谱包括实体信息和实体之间的位置关系;将图像信息切分为不重叠的子区域图像;根据子区域图像和知识图谱进行图像描述,生成描述图像内容的自然语言文本,并根据自然语言文本构建多模态感知与认知数据集,解决了现有技术中多模态数据集标注方法成本高、效率低、准确度低的问题,提升了多模态模型的感知能力以及包含推理、比较、描述的高级认知能力。
技术关键词
自然语言文本 构建知识图谱 图像 多模态 三元组 实体 K均值聚类算法 人工智能模型 卷积架构 数据 微调技术 计算机程序产品 计算机视觉 初始聚类中心 模块 信息处理 样本