AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

多模态大模型越来越会读图中文字,但最新研究显示,「读得出来」并不等于「防得住」。西湖大学 AGI Lab 的研究团队发现,当有害文本被渲染成低清、模糊或带噪图片后,模型在一个特定清晰度区间内反而更容易被越狱。

来自主题: AI技术研报
6689 点击    2026-06-15 09:19
通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

想象这样一个惬意的周末: 空调带来阵阵凉意,你靠在沙发上看书,突然耳边传来“哒哒哒”的小碎步声,接着,玄关门边传来了一阵清脆、略带急切的“呜呜”声,还伴随着爪尖轻轻扒拉木门的声响。

来自主题: AI技术研报
5868 点击    2026-06-12 10:02
重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

早在 2023 年大模型快速发展期,哈工大张民教授立知大模型团队已开展多模态大模型驱动的视频内容创作智能体研究,并全球首发开源了电影制作智能体 FilmAgent 与动画片生成智能体 Anim-Director,受到国内外智能体研究者与文艺创作者的广泛关注。

来自主题: AI技术研报
7561 点击    2026-06-07 10:51
高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

大模型的能力边界正在不断拓展,从文字到视觉,再到音频,全模态理解已渐成现实。然而,当你问一个多模态大模型「这首歌的高潮从第几秒开始?」或者「第 30 秒之后乐器编配发生了什么变化?」,得到的往往是一个模糊甚至错误的回答。

来自主题: AI技术研报
6508 点击    2026-05-20 09:51
从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

从图像到视频的任意分割:X2SAM让MLLM 真正看懂像素级时空世界

为了解决这一问题,来自中山大学和美团的研究团队提出了 X2SAM,一个统一的图像与视频分割多模态大模型框架。它希望让模型不仅能「看懂」图像和视频,还能进一步「指出」目标在每个像素上的准确位置。

来自主题: AI技术研报
7807 点击    2026-05-16 10:50
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代

上海交通大学、上海创智学院与瑞金医院联合发布的CX-Mind,是目前首个将胸片诊断推进为「可验证推理链」的多模态大模型——从看到异常,到解释为什么、排除了什么、结论怎么来的,每一步都有影像证据支撑。

来自主题: AI资讯
9201 点击    2026-05-15 13:30
ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。

来自主题: AI技术研报
7893 点击    2026-05-14 09:30
ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报
6715 点击    2026-05-08 14:07
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习(RL)优化文生图模型的 prompt following 能力,是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片,通过 reward model 计算 reward,再利用相关 RL 算法优化模型。

来自主题: AI技术研报
7287 点击    2026-05-06 14:27