AI资讯新闻榜单内容搜索-图像生成

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 图像生成
NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

NextStep-1:一次在图像生成上自回归范式的探索

自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。

来自主题: AI技术研报
5419 点击    2025-08-18 17:36
联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报
5606 点击    2025-08-11 10:17
Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

Flux.1 Krea Dev超大杯实测:开源模型能否撼动Midjourney V7 ?

7月底 Black Forest Labs 和 Krea 合作开发的高级文本到图像生成模型 Flux.1 Krea Dev,最近终于有时间进行测评了。Flux.1 Krea Dev 是基于FLUX.1 dev 模型进行蒸馏的,参数规模12B,专注于提升图像的美学和真实感,避免了常见的 AI 生成痕迹(过度饱和或不自然高光等等),更倾向于追求自然细节、照片级真实感和多样性。

来自主题: AI资讯
6126 点击    2025-08-07 10:54
Qwen新开源,把AI生图里的文字SOTA拉爆了

Qwen新开源,把AI生图里的文字SOTA拉爆了

Qwen新开源,把AI生图里的文字SOTA拉爆了

通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。 这也是通义千问系列中首个图像生成基础模型。

来自主题: AI技术研报
5527 点击    2025-08-05 17:10
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

图像生成不光要好看,更要高效。 混元基础模型团队提出全新框架MixGRPO,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP中的优化流程,从而提升了效率的同时还增强了性能。

来自主题: AI技术研报
6068 点击    2025-08-03 13:37
AMD携手Stability AI推出世界首款适用于Stable Diffusion 3.0 Medium的B16 NPU模型,带来更快速且画质无损的文生图功能

AMD携手Stability AI推出世界首款适用于Stable Diffusion 3.0 Medium的B16 NPU模型,带来更快速且画质无损的文生图功能

AMD携手Stability AI推出世界首款适用于Stable Diffusion 3.0 Medium的B16 NPU模型,带来更快速且画质无损的文生图功能

AMD携手Stability AI宣布推出世界首款适用于Stable Diffusion 3.0 Medium的B16 NPU模型。该模型可直接运行于AMD XDNA 2 NPU之上,能够显著提升图像生成质量。新模型作为Amuse 3.1平台的组件之一亮相,于今天一起发布。

来自主题: AI资讯
7641 点击    2025-07-23 10:06
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

来自主题: AI技术研报
5941 点击    2025-07-18 11:02
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。

来自主题: AI技术研报
6551 点击    2025-07-16 15:19