AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

牛津大学团队推出全球首个心脏传感基础模型CSFM,能统一分析智能手环、心电图等多源数据,无论信号来自何处、是否完整,都能精准诊断房颤、预测死亡风险、重构血压波形,甚至用单一脉搏波生成完整心电图。打破了设备壁垒,让偏远地区也能享用顶级心脏监护,推动全球医疗平权。

来自主题: AI技术研报
8538 点击    2026-03-13 10:53
独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

我们独家获悉,外界千呼万唤的DeepSeek-V4将于4月正式上线。作为梁文锋打磨已久的多模态大模型,DeepSeek-V4除了在Coding能力上跃升之外,还将在LTM(long term memory长期记忆)上取得突破。

来自主题: AI资讯
10241 点击    2026-03-12 17:20
让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间

让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间

让龙虾看懂屏幕!谷歌多模态新成果,文本图像视频音频进同一空间

刚刚,谷歌发布了首个原生多模态(Multimodal)嵌入模型——Gemini Embedding 2。这次模型最大的变化在于:把文本、图像、视频、音频和文档,全部映射进同一个统一的嵌入空间。

来自主题: AI资讯
6589 点击    2026-03-11 16:59
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报
8362 点击    2026-03-11 09:25
ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化

ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化

ICLR 2026|原生多模态推理新范式ThinkMorph ,让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出 「ThinkMorph」,主张让文字与图像在统一架构里「原生协作」、「共同演化」,而不是像当下大多数多模态模型那样,看完图像就闭上眼睛,后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型,视觉推理平均提升 34.74%,多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报
6430 点击    2026-03-11 09:22
ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练

在 AI 视觉生成领域,扩散模型(DM)凭借其强大的高保真数据生成能力,已成为图像合成、视频生成等多模态任务的核心框架。然而,预训练后的扩散模型如何高效适配下游应用需求,一直是行业面临的关键挑战。

来自主题: AI技术研报
7531 点击    2026-03-10 09:30
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。

来自主题: AI技术研报
5564 点击    2026-03-09 14:29
ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

ICLR 2026 | 帝国理工大学提出DyMo:让多模态模型学会「选择」,突破模态缺失难题

多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。

来自主题: AI技术研报
8686 点击    2026-03-09 14:28