AI资讯新闻榜单内容搜索-Multi

ICLR 2026 | 帝国理工大学提出DyMo：让多模态模型学会「选择」，突破模态缺失难题

多模态学习（Multimodal Learning）正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态，模型能够获得更全面的信息，从而显著提升性能。

来自主题: AI技术研报

9644 点击 2026-03-09 14:28

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与

基础模型时代，大模型能力的爆发，很大程度上源于在海量文本上的预训练。然而问题在于，文本本质上只是人类对现实世界的一种抽象表达，是对真实世界信息的有损压缩。

来自主题: AI技术研报

10273 点击 2026-03-09 09:53

CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

近期，大连理工与快手可灵团队推出了 MultiShotMaster—— 一个高度可控的多镜头视频生成框架，该论文向研究社区展示了即使在 1B 左右的小参数量级模型上，也可以实现导演级的镜头调度和连贯叙事，且支持多图参考、主体运动控制。

来自主题: AI技术研报

9716 点击 2026-03-06 15:06

ICLR 2026 | 在Moltbook之外，上交大联合上海AI Lab模拟了AI原⽣社交的「真实暗⾯」

本⽂的主要作者来⾃上海交通⼤学和上海⼈⼯智能实验室，核⼼贡献者包括任麒冰、郑志杰、郭嘉轩，指导⽼师为⻢利庄⽼师和邵婧⽼师，研究⽅向为安全可控⼤模型和智能体。最近，Moltbook 的爆⽕与随后的迅速

来自主题: AI技术研报

10788 点击 2026-02-11 12:32

美团提出全新多模态统一大模型STAR，GenEval突破0.91，破解“理解-生成”零和困局

近日，美团推出全新多模态统一大模型方案 STAR（STacked AutoRegressive Scheme for Unified Multimodal Learning），凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计，实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报

11500 点击 2026-02-05 13:50

跨境电商版Sora发布：全球首个AI原生电商视频Multi-Agent来了

你的下一个视频团队，不一定非得是人。

来自主题: AI资讯

8915 点击 2026-01-27 16:52

斯坦福发布基于58万小时数据的SleepFM预测模型，睡一晚就能预测130种疾病！

《Nature Medicine》的研究报道“A multimodal sleep foundation model for disease prediction”，研究人员开发了一种名为 SleepFM 的基础模型，从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步，更是AI在生物医学领域的深层突围。

来自主题: AI资讯

10432 点击 2026-01-11 22:05

真实音频场景，大模型集体挂科！首个原生语音基准MultiChallenge

文本领域的大模型满分选手，换成语音就集体挂科？大模型引以为傲的多轮对话逻辑，在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge，直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示，强如Gemini 3 Pro在真实场景下的通过率也仅过半数，而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报

10729 点击 2026-01-06 16:46

AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1，刚刚对外发布了。这一次，它直接甩出了一份硬核成绩单，在衡量多语言软件工程能力的Multi-SWE-bench榜单中，以仅10B的激活参数拿下了49.4%的成绩，超越了Claude Sonnet 4.5等国际顶尖竞品，拿下全球SOTA。

来自主题: AI资讯

9770 点击 2025-12-24 08:08

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

10954 点击 2025-12-22 09:33