一种多模态感知与认知数据集的构建方法和装置
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种多模态感知与认知数据集的构建方法和装置
申请号:
CN202411960488
申请日期:
2024-12-30
公开号:
CN119380343A
公开日期:
2025-01-28
类型:
发明专利
摘要
本发明提供了一种多模态感知与认知数据集的构建方法和装置,获取图像信息,该图像信息包括智能体自身的摄像头实时抓取的画面;根据图像信息构建知识图谱;其中,该知识图谱包括实体信息和实体之间的位置关系;将图像信息切分为不重叠的子区域图像;根据子区域图像和知识图谱进行图像描述,生成描述图像内容的自然语言文本,并根据自然语言文本构建多模态感知与认知数据集,解决了现有技术中多模态数据集标注方法成本高、效率低、准确度低的问题,提升了多模态模型的感知能力以及包含推理、比较、描述的高级认知能力。
技术关键词
自然语言文本
构建知识图谱
图像
多模态
三元组
实体
K均值聚类算法
人工智能模型
卷积架构
数据
微调技术
计算机程序产品
计算机视觉
初始聚类中心
模块
信息处理
样本