AI资讯新闻榜单内容搜索-生成模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 生成模型
CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

来自主题: AI技术研报
9165 点击    2025-05-12 14:59
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性

近年来,基于视频生成模型的可交互世界生成引发了广泛关注。尽管现有方法在生成质量和交互能力上取得了显著进展,但由于上下文时间窗口受限,生成的世界在长时序下严重缺乏一致性。

来自主题: AI技术研报
7882 点击    2025-05-12 11:05
SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。

来自主题: AI技术研报
8976 点击    2025-05-12 10:31
Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力,然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务,是一个巨大的挑战。

来自主题: AI技术研报
8066 点击    2025-05-10 13:35
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。

来自主题: AI技术研报
7919 点击    2025-05-08 10:15
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

来自主题: AI技术研报
8112 点击    2025-05-06 15:07
炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

炸裂!DeepMind 发布 Lyria 2 音乐生成模型!

Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。

来自主题: AI资讯
7833 点击    2025-04-27 09:16
刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元

刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元

刚刚,OpenAI图像生成模型API发布,Token计价,一张图花掉1.4元

上个月,OpenAI 在 ChatGPT 中引入了图像生成功能,广受欢迎:仅在第一周,全球就有超过 1.3 亿用户创建了超过 7 亿张图片。就在刚刚,OpenAI 又宣布了一个好消息:他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1,让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。

来自主题: AI资讯
7790 点击    2025-04-24 09:44