AI资讯新闻榜单内容搜索-生成模型

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年，多模态模型在理解任务上快速演进，图像问答、OCR、视觉推理、跨模态对话等能力不断提升；与此同时，图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是：能否用同一个模型，同时做好理解与生成？这正是统一多模态模型（Unified Multimodal Models, UMMs）正在回答的问题。

来自主题: AI技术研报

7108 点击 2026-03-26 14:45

ICLR 2026 | ESC — 解构一步生成，厘清细节，探寻本质

近期，基于捷径化概率流路径（shortcut probability flow trajectory）并从头训练的一步扩散生成模型，展现出强大的实证有效性。然而，这类方法的提出通常建立在较为复杂的理论推导之上，并且往往与具体实现细节高度耦合。这带来一个直接的问题：究竟哪些设计是方法成立的本质要素，哪些又只是可以灵活替换的实现组件。

来自主题: AI技术研报

7197 点击 2026-03-24 17:19

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D，无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征，精准控制结构与时序，轻松完成复杂变形，效果远超传统方法。

来自主题: AI技术研报

10074 点击 2026-03-17 14:27

速递｜字节最强视频模型 Seedance 2.0 暂停全球发布，好莱坞巨头们集体急了

据 The Informaton 报道，字节跳动已经暂缓了视频生成模型 Seedance 2.0 的全球发布计划。背后的导火索，是一连串来自好莱坞头部片厂和流媒体平台的版权争议。

来自主题: AI资讯

9416 点击 2026-03-15 16:07

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

刚刚，Luma AI甩出全新模型Uni-1，正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中，Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。

来自主题: AI资讯

9428 点击 2026-03-06 15:41

李飞飞50亿美金赛道被开源！浙大教授章国锋带队创业，打造无限时长实时3D世界模型

在 50 亿美元估值神话的背后，这一空间智能的最新高地正被国内创业公司攻克并推向产业纵深。近日，影溯（InSpatio）正式发布并开源了其实时帧生成模型 InSpatio-WorldFM，一个实时交互的 3D 世界模型。这标志着中国团队在空间智能底层技术上取得了奠基性突破，而且以开放的姿态，正成为推动 AI 从虚拟屏幕走向物理现实的关键破局者。

来自主题: AI资讯

10158 点击 2026-03-06 15:40

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型，打破闭源技术壁垒

基于对注意力特性的观察，CineTrans 提出块对角掩码的通用机制，使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性，作者设计了详细的多镜头视频生产管线，并收集了一个高质量、多镜头数据集 Cine250K，大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型，CineTrans 为这一领域的众多后续方法提供了关键技术。

来自主题: AI技术研报

9068 点击 2026-02-28 15:05