AI资讯新闻榜单内容搜索-图像生成

一句话生图要过时了？开源图像生成Agent进化出「工具编排」

图像生成正在从「一句话生成一张图」，走向更接近真实创作流程的开放任务。

来自主题: AI技术研报

8204 点击 2026-07-01 15:16

半月内两次问鼎全球：中国创业公司，在AI图像生成赛道掀了桌子

每一次技术范式的重大转换，都是旧秩序松动、新物种诞生的窗口期。

来自主题: AI资讯

7904 点击 2026-06-11 15:00

HiDream-O1-Image-1.5 刷新国产图像生成模型纪录：砍掉 VAE，是图像模型的未来吗？

文生图的"慢思考"，到底有没有用？

来自主题: AI资讯

6945 点击 2026-06-11 10:41

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报

7379 点击 2026-05-26 10:07

刚刚，谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律；与此同时，学界却在悄悄质疑另一个更根本的浪费：传统 VAE 对图像语义几乎一无所知，而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型，真的需要从零开始「发明」对图像的理解吗？

来自主题: AI技术研报

8745 点击 2026-05-21 16:45

打破碎片化瓶颈！浙大&哈佛开源UniGeo，高保真相机可控编辑

UniGeo通过视频模型的连续视角先验与统一几何引导，实现稳定、高质量的相机可控图像生成，全面超越现有方法，在不同幅度的相机运动中提升跨视角一致性与结构稳定性。

来自主题: AI技术研报

6471 点击 2026-05-07 15:04

Luma Uni-1.1 API开放，图像模型榜单第三，文字渲染直逼GPT image 2

今年以来，图像生成模型的迭代节奏明显加快。

来自主题: AI技术研报

10348 点击 2026-05-06 15:17

深扒GPT Image 2：疑似“吞”下了GPT-4o，OpenAI没把它当“生图”模型训练

GPT Image 2 凭什么这么强？是扩散模型又迭代了一版？是把 DiT 的参数量从 7B 扩到 20B？是训了更多高质量数据？先给结论：OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划，至于最后一步的像素生成，可能由扩散组件或其他解码器完成。

来自主题: AI技术研报

7985 点击 2026-05-03 22:58

OpenAI Image2 核心团队成员爆料：历时4个月，断崖反超谷歌 Nano Banana！几乎所有图像生成团队都上了！业内都在深扒Image2技术路径！

“这是我过去四个月一直在研究的东西！”

来自主题: AI资讯

10325 点击 2026-04-23 14:47

训练提速4.6倍！FP4+BF16双轨并行，NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力，推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL，通过「FP4 先探索、BF16 再训练」的后训练框架，将达到等效 reward 水平的收敛速度最高提升到 4.64x，在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报

9333 点击 2026-04-16 16:07