AI资讯新闻榜单内容搜索-多模态数据

ICML 2026 Spotlight | 直面「模态缺失」挑战：北大彭宇新团队联合福大柯逍团队提出LIMSSR，面向训练阶段不完整观测的精准评价

本文是北京大学彭宇新教授团队联合福州大学柯逍教授团队在细粒度多模态动作质量评价领域的最新研究成果，相关论文已被 ICML 2026 接收为 Spotlight，并已开源。真实世界中的多模态数据往往并不完整。在动作质量评价任务中，视频、光流、音频等模态能够从不同角度描述动作执行过程，但在实际采集时，传感器故障、环境噪声、隐私限制等因素都会导致模态缺失。

来自主题: AI技术研报

8334 点击 2026-07-10 10:40

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮，Holi-Spatial打造400万级空间多模态数据集

从原始视频出发，无需人工介入，自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产，推进到自动化、可扩展的新阶段。

来自主题: AI技术研报

6994 点击 2026-06-19 10:16

独家 | 乐聚和穹彻联手，具身智能数据基础设施公司刻行时空完成新一轮融资

AI 智件获悉，第三方数据基础设施公司「刻行时空」（下称“刻行”）已于今年1月完成新一轮融资，投资方包括穹彻智能、乐聚智能、线性资本。刻行成立于2022年，是一家面向具身智能的第三方数据基础设施公司，聚焦时空多模态数据的生产、治理、评估与合规交付。

来自主题: AI资讯

8545 点击 2026-06-17 14:11

混合检索系列之：Milvus 地理几何字段与 R-Tree 索引技术详解

在向量数据库的工程实践中，处理多模态数据，特别是结合地理位置（LBS）与非结构化语义数据，一直是一个复杂的架构挑战。

来自主题: AI技术研报

8581 点击 2026-01-26 10:20

顶刊TPAMI｜多模态视频理解领域重磅数据更新：MeViSv2发布

近日，多模态视频理解领域迎来重磅更新！由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布，并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报

10572 点击 2025-12-29 09:07

向量检索爆雷！傅聪联合浙大发布IceBerg Benchmark：HNSW并非最优，评估体系存在严重偏差

将多模态数据纳入到RAG，甚至Agent框架，是目前LLM应用领域最火热的主题之一，针对多模态数据最自然的召回方式，便是向量检索。

来自主题: AI技术研报

7899 点击 2025-12-26 09:40

AAAI 2026｜视频大语言模型到底可不可信？23款主流模型全面测评来了

近年来，视频大语言模型在理解动态视觉信息方面展现出强大能力，成为处理真实世界多模态数据的重要基础模型。然而，它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

来自主题: AI技术研报

7305 点击 2025-12-16 09:19

NeurIPS 2025 | 告别全量扫描！浙大提出COIDO：破解多模态数据选择「高耗」难题

在深入技术细节之前，我们先用一张漫画来直观理解 COIDO (Coupled Importance-Diversity Optimization) 解决的核心问题与方案：正如钟离在漫画中所言，面对海量视觉指令数据的选择任务，传统方法需要遍历全部数据才能进行筛选造成大量「磨损」（高昂计算成本）。同时在面对数据重要性和多样性问题时，传统方法往往顾此失彼。

来自主题: AI技术研报

8009 点击 2025-12-14 10:46

医疗AI智能体全面综述：行业爆发，年增长130%！

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述，用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策，又能扮演医生、护士、健康管家等多重角色；同时提醒：越智能越危险，必须配套严格评估、隐私保护与伦理护栏，才敢让它走进真实诊疗。

来自主题: AI技术研报

8688 点击 2025-11-19 09:06

全球首个真实世界具身多模态数据集，它石智航交卷，比特斯拉还早6个月

全球首个真实世界具身多模态数据集，它来了！刚刚，它石智航发布全球首个大规模真实世界具身VLTA（Vision-Language-Tactile-Action）多模态数据集World In Your Hands（WIYH）。

来自主题: AI技术研报

11675 点击 2025-10-11 12:06