AI资讯新闻榜单内容搜索-生成模型

阿里一夜扔出三个开源王炸！猛刷32项开源SOTA

深夜，阿里通义大模型团队连放三个大招：开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509更新。Qwen3-Omni能无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音输出。

来自主题: AI资讯

8241 点击 2025-09-23 16:33

近来，由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网，视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报

6684 点击 2025-09-22 09:21

清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa，解决传统模型「指标优秀但实际不可用」痛点，让AI生成贴合建筑师设计偏好的可行方案。

来自主题: AI技术研报

7238 点击 2025-09-07 11:53

随着内容创作智能化需求的爆发，长时长、高质量数字人视频生成始终是行业痛点。近日，字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman，打破传统音频驱动技术在长视频场景中的局限性，开启 AI 数字人实用化新征程

来自主题: AI技术研报

7523 点击 2025-09-04 15:22

自带声音的视频生成模型，开源版开卷！最新赶到的是腾讯混元：刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley。

来自主题: AI资讯

8350 点击 2025-08-29 12:12

传统 video dubbing 技术长期受限于其固有的 “口型僵局”，即仅能编辑嘴部区域，导致配音所传递的情感与人物的面部、肢体表达严重脱节，削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型，在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。

来自主题: AI技术研报

8604 点击 2025-08-28 14:32

最近3D内容生成模型好生热闹，像谷歌Genie 3、World Labs、混元、昆仑争相发布并开测世界模型。

来自主题: AI资讯

8940 点击 2025-08-27 18:50

百度最新视频生成模型蒸汽机2.0（MuseSteamer 2.0），好像真的有点东西。

来自主题: AI产品测评

7987 点击 2025-08-26 18:52

最初说不做视频生成模型的百度，现在在视频生成的路上一路狂奔！就在刚刚，百度蒸汽机（MuseSteamer）视频生成大模型升级至2.0版本，主打多人有声音视频一体化生成。

来自主题: AI资讯

8912 点击 2025-08-22 11:32

多模态的生成，是 AI 未来的方向。最近，AI 领域的气氛正在发生微妙的变化。比如，刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。

来自主题: AI资讯

7028 点击 2025-08-22 09:19