腾讯混元放出AI“终极P图神器”，网友们玩疯了

11155点击 2026-01-29 11:06

一句话P电商海报、一键换装滑冰。

智东西1月28日报道，今天，腾讯混元图像3.0图生图版本正式开源。在最新的LMArena图片编辑榜单上，腾讯混元图像3.0图生图位列全球第七，也是前七名里面唯一开源的模型。

腾讯混元放出AI“终极P图神器”，网友们玩疯了

▲LMArena图片编辑榜单（来源：LMArena）

LMArena官方X祝贺混元图像3.0图生图“在图片编辑榜单中与Nano-Banana和Seedream-4.5等表现相当”。

腾讯混元放出AI“终极P图神器”，网友们玩疯了

▲LMArena官方祝贺推文（来源：X）

混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能，还可以将多张照片中的元素提取出来合成新图片。

1月26日，该模型在元宝上线，已经被网友玩出“花”了：

腾讯混元放出AI“终极P图神器”，网友们玩疯了

智东西也第一时间上手体验，发现该模型可以保持前后素材元素风格的一致性，对照片细节把握准确，思考响应速度也较快，可玩性确实很高。

腾讯混元放出AI“终极P图神器”，网友们玩疯了

▲混元图像3.0图生图开源页面（来源：Hugging Face）

开源地址：

Github：

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

Hugging Face：

https://huggingface.co/tencent/HunyuanImage-3.0-Instruct

Hugging Face（蒸馏版）：

https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

01. 融合理解、推理与生成：

混元图像3.0图生图“先思考后编辑”

据官方介绍，混元图像3.0图生图采用混合专家原生多模态架构，总参数规模达80B，激活参数约13B。

训练过程中，混元团队构建了千万量级的图生图数据，覆盖80多个任务，并注入了思维链数据，使模型能够学会先分析用户图像和意图，再输出详细编辑指令。

后训练阶段则采用自研MixGRPO算法，对齐用户偏好，大幅提升了指令响应和非编辑区域保持一致的效果。

腾讯混元放出AI“终极P图神器”，网友们玩疯了

▲混元图像3.0图生图架构

在多模态方面，混元图像3.0图生图版本基于混元图像3.0的原生多模态架构构建，将文本理解、视觉理解与图像生成融合于同一模型中。

作为原生多模态模型，混元图像3.0图生图核心创新在于其“先思考，后编辑”的工作流程。

当接收到用户输入的图片和提示词后，模型会首先理解图像内容，然后基于提示词进行推理，确定需要编辑的区域、详细步骤以及需要保留的区域，最终形成更加详细的编辑指令。

腾讯混元放出AI“终极P图神器”，网友们玩疯了

▲混元图像3.0图生图思考过程

混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能，还可以将多张照片中的元素提取出来合成新图片。

对于普通用户，该模型可用于制作表情包、虚拟人物合拍、社交分享等日常场景。对于专业用户，它能够助力电商海报设计、游戏角色定制、创意图片制作等专业领域，提升创作效率。

02. 体验混元图像3.0图生图：

一句话快速P图、一键实现产品实穿效果

1月26日，混元图像3.0图生图版已经上线元宝，可以在元宝中直接对话使用。

智东西第一时间上手体验，发现该模型可以保持前后素材元素风格的一致性，对照片细节把握准确，思考响应速度也较快。

例如，我们上传一张《蒙娜丽莎的微笑》的图片和一只小猫的照片，让元宝把这只小猫P到蒙娜丽莎的怀里：

腾讯混元放出AI“终极P图神器”，网友们玩疯了

不到一分钟，元宝就完成了P图，P后的图片中的小猫元素和蒙娜丽莎与原图保持一致，且手臂部分的前后透视关系也十分准确。

我们还可以让元宝给我们换一套妆造，替我们去颐和园滑冰：

腾讯混元放出AI“终极P图神器”，网友们玩疯了

可以看到，仅凭借“颐和园”三个字，该模型就准确地生成了颐和园的佛香阁作为背景。冰面的裂纹和在冰上滑冰的人群都十分逼真。

此外，在电商领域，用户还可以直接用元宝生成产品图。该模型可以参考指定风格，快速生成所需的电商海报，且可以自由更换海报背景：

腾讯混元放出AI“终极P图神器”，网友们玩疯了

用户还能直接将产品合成到模特身上，生成自然真实的产品上身效果图，能够大幅减少电商设计的工作量：

腾讯混元放出AI“终极P图神器”，网友们玩疯了

03. 结语：腾讯混元开源家族再壮大

“视觉生成时代”加速到来

据腾讯混元官方分享，截止目前，腾讯混元的图像、视频衍生模型数量总数达到3000个，视频模型社区下载量超过500万，混元3D系列模型社区下载量超过300万。

混元图像3.0图生图模型的开源，在壮大了腾讯开源家族的同时，也为全球开发者社区提供了一个图像生成的新选择，或许将加速AI图像编辑向更广泛日常应用的落地。

一个功能更全面、创作更便捷、人人可参与的视觉生成时代正在加速到来。

文章来自于“智东西”，作者 “王涵”。

关键词: AI新闻 , 混元图像3.0 , 腾讯混元 , AI生图

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0