AI资讯新闻榜单内容搜索-文生图

告别云端依赖！字节开源新作DreamLite让手机秒变 AI 画板

近日，字节跳动智能创作部门（Intelligent Creation Lab）提出新作 DreamLite，一个主干网络仅有 0.39B 参数的轻量级统一扩散模型，在单一网络内同时支持文生图（Text-to-Image）和图像编辑（Text-guided Image Editing）两个任务，是目前已知首个实现这一能力的端侧模型。

来自主题: AI技术研报

8259 点击 2026-05-13 10:30

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习（RL）优化文生图模型的 prompt following 能力，是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片，通过 reward model 计算 reward，再利用相关 RL 算法优化模型。

来自主题: AI技术研报

7077 点击 2026-05-06 14:27

告别直接生成，文生图进入Agent时代：港中文联合伯克利开源Gen-Searcher

过去两年，图像生成模型在质感和审美上一路狂飙，但大多仍是 “直接出图” 的范式。

来自主题: AI技术研报

6634 点击 2026-04-10 08:34

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

9782 点击 2026-03-12 14:10

ICLR 2026 | 阿里高德发布SpatialGenEval，揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval，旨在通过长文本、高信息密度的 T2I prompt 设计，以及围绕空间感知

来自主题: AI技术研报

10224 点击 2026-02-22 11:17

LeCun、谢赛宁团队重磅论文：RAE能大规模文生图了，且比VAE更好

编辑｜Panda 在文生图模型的技术版图中，VAE 几乎已经成为共识。从 Stable Diffusion 到 FLUX，再到一系列扩散 Transformer，主流路线高度一致：先用 VAE 压缩视

来自主题: AI技术研报

7676 点击 2026-01-24 10:52

任意条件，「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术，总结了在文本条件之外引入新条件信号的方法，从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报

9130 点击 2026-01-19 08:55

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

香港大学（The University of Hong Kong）与 Adobe Research 联合发布 Self-E（Self-Evaluating Model）：一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级质量，并且随着步数增加呈现单调提升。

来自主题: AI技术研报

9102 点击 2026-01-18 14:57

AI 参数战争下的"隐秘战场"：为何全球顶级厂商集体转向"游戏"？

回顾 2025 年，如果问普通人对 AI 行业最深刻的印象是什么？答案依然是激烈的“参数战争”：有 DeepSeek、Gemini 3 等大模型的集体爆发，也有文生图、文生视频能力的持续惊艳。

来自主题: AI资讯

9500 点击 2025-12-24 10:10

让AI像人类画家一样边画边想，港中文&美团让模型「走一步看一步」

在文生图（Text-to-Image）和视频生成领域，以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报

11150 点击 2025-12-22 16:05