AI资讯新闻榜单内容搜索-Image

ICML 2026｜文生图模型也会「忘词」？复旦创智等提出Prompt Reinjection，无需训练提升文生图指令遵循能力

近年来，文生图模型的能力快速提升。从 Stable Diffusion 到 FLUX、Qwen-Image，扩散模型已经能够生成高质量图像，也能处理越来越复杂的文本提示。

来自主题: AI技术研报

10273 点击 2026-06-09 10:02

一步生成 ImageNet FID 1.29！斯坦福用 Wasserstein 梯度流重写一步生成模型

训练时让分布沿最优传输的 “下山方向” 走，推理时只需一次网络前向。W-Flow 把多步演化压进静态生成器，在 ImageNet 256×256 上刷新一步生成指标。

来自主题: AI技术研报

9804 点击 2026-06-03 14:34

文生图开源第一易主，但 HiDream-O1-Image 为什么褒贬不一？

UiT 架构探路者，底牌还没亮。

来自主题: AI资讯

12560 点击 2026-06-02 15:05

AI实验室Agnes AI开放全模态不限时免费API！重点是免费！

在这场日益蔓延的“Token焦虑”中，Agnes AI的举动显得格外扎眼——这家全球榜单排名第九的AI Lab宣布，自6月1日起，旗下全模态模型API无限期免费开放。Agnes AI本次开放覆盖其三款核心模型：文本模型Agnes-2.0-Flash、图像模型Agnes-Image-2.0-Flash以及视频模型Agnes-Video-V2.0。

来自主题: AI资讯

13682 点击 2026-06-01 11:24

李飞飞造了ImageNet，现在她又带人超越了它

就在前两天，斯坦福大学等机构发布了一个名为 GPIC（Giant Permissive Image Corpus，巨型开放图像语料库）的数据集。

来自主题: AI技术研报

10709 点击 2026-05-30 15:57

DeepSeek陈德里开发自动研究Skill，用DeliAutoResearch写一篇论文人类只动脑2小时

DeepSeek研究员陈德里，在个人博客更新一篇研究综述论文。用的是他自己的技能DeliAutoResearch，DeepSeek-V4-Pro研究和写作，GPT-Image2画图。论文共迭代6次（V1：4 次，V2：1 次，V3：1 次），总耗时6天，进行了约108轮Agent调用，消耗64.8万token，写了2234行LaTeX代码。

来自主题: AI资讯

10660 点击 2026-05-27 09:47

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

8416 点击 2026-05-26 10:26

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布，融资持续提速

智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer（UiT）打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型，不仅在多个基准测试中刷新 SOTA 纪录，也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

来自主题: AI资讯

9767 点击 2026-05-25 09:49

22.9倍加速！FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

来自浙江大学和阿德莱德大学的研究团队提出了 FlashAR—— 一个轻量级的后训练加速框架。不需要从头训练，在 Emu3.5-Image-34B 模型上，仅用原始训练数据的 0.05%（约 8 万张图片），就能将预训练好的自回归模型改造成高度并行的生成器 Emu3.5-34B-Flash，实现最高 22.9 倍的端到端加速。

来自主题: AI技术研报

9205 点击 2026-05-24 10:07

李飞飞最新发布ESI-Bench，空间智能的ImageNet来了

李飞飞团队最新发布ESI-Bench——一个专门用来评测具身空间智能的新基准。过去的空间智能评测默认给模型最优观测，而ESI-Bench第一个把观察者变成行动者，闭合了感知-行动回路。

来自主题: AI技术研报

9737 点击 2026-05-22 15:32