嗨大家好!我是阿真!
Nano Banana我之前预告过说要写,今天终于写完了。Nano Banana就是现在谷歌的gemini-2.5-flash-image-preview(看你这么厉害,后续就晋升缩写为NB吧),确实是很不错,我尝试了多种玩法,现在分享给大家,今天废话少说,但是案例管饱,来来一起往下看!
使用平台:
https://aistudio.google.com/prompts/new_chat
https://gemini.google.com/
其他还有像是Freepik / Flowith 等等平台也有了。
默认情况下方第一张图均为原图,后面就是上传原图然后让它编辑输出的。
大家都在说它牛,首先先给大家看一个让我觉得比较惊喜的图。这是我在ChatGPT 4o出来的时候就想实现的,但是当时变化很大,现在NB是真的实现了。
真的可以做到了!可能大家要说细节还不是百分百像,但是作为参考,是完全可以的。
这里我第一步说【修复图片】,大概修复了50%,然后我说【修复到完好无损】,就变成了右边的画面。
对它的预期变得更高了!接下来一起来看看我的其他测试案例吧。
文中图片均为AI生成,如有涉及品牌,与品牌无关。
1. 更换角度姿势
1.1 动作迁移姿态重建
1.2 真实人物不同姿势
2. 更换背景环境
2.1 更换产品
2.2 更换背景
3. 照片修复增强
3.1 图片变海报
3.2 图片上色
4. 更换服装造型
4.1 换造型+背景
4.2 平铺衣服
4.3 一键换装
4.4 服装重纹理
4.5 一键卸妆
5.风格转换与合成
5.1 添加游戏UI
5.2 手办
5.3 等轴测三维图
5.4 3D渲染效果
6. 小结
6.1 核心能力
6.2 不足
1.1
动作迁移姿态重建
提示词:
(图2)切换为正面平视,角色直视镜头,视角自然,保持分辨率和清晰度不变。
(图3)切换为纯侧面视角,角色完全转向左
(图4)背面视角,角色背对镜头,氛围感强
(图5)切换为极度高角度俯视,镜头从上往下看,让角色显得更可爱
(图6)顶视鸟瞰,镜头几乎垂直向下,完整展示主体
(图7)极近特写,聚焦在面部,表情看起来有些愤怒和恐惧
(图8)全景镜头,展示角色全身和完整蒸汽朋克时代环境
一致性拉满,大家可以点开仔细对比细节。
不过我们可能会发现,图片质量不太好,可能达不到要求。
之前有朋友留言说希望有可以帮助高清的工具,我这里推荐两个,一个是免费的并且效果也很不错的,在腾讯ARC可以使用,上传图片就可以高清化
https://arc.tencent.com/zh/ai-demos/imgRestore
另一个是付费的,贵了点,但是效果非常惊艳,我个人非常喜欢:https://magnific.ai/editor/
看看3个图的对比:
上面分别是Gemini直出、腾讯ARC动漫增强(免费)和Magnific的2倍高清。画质可能都会压缩,大家主要看画面细节对比。
然后我有了一个想法,既然它这么聪明可以参考摆姿势,那么使用专门的Pose网站那岂不就可以做出各种动作了?
来给大家上链接,下面我的这些灰色背景的3D动作参考模型图都来自这个网站,也可以自己改变动作: https://posemy.art/
试过发现不一定很准,但还是有一定参考作用。
来都来了,不如再给个王子……
提示词:男主角抱着女主角,做出图三的姿势,保证场景自然融洽,光影过渡柔和,材质细节一致,呈现逼真的摄影效果与电影般质感。
参考图还是第1张+这个动作参考,方向不对但是还是参考了姿势。
提示词:让图一中的角色摆出图二中的姿势,保持人物外貌、服饰和风格不变,仅调整动作。
1.2
真实人物不同姿势
如果有一张照片,想要更换姿势,现在也更加简单了。
提示词:
老人站起来,站在椅子后,双手扶着椅子。
给个参考图让老爷子起来锻炼:
2.1
更换产品
提示词:将木桌上的打字机替换为图二音箱,突出音箱,保持砖墙、温暖阳光和纸张不变,确保音箱在场景中自然融合,光影和材质一致,真实摄影感,电影质感。
这里有个温馨提示,如果我们要上传2张参考图,那么最好是两个参考图的比例是一样的,因为我多次尝试后发现,1张参考图的时候,输出图和原图比例一样。2张参考图比例不同的时候,输出的图片比例可能是后一张图片的比例,但是如果我们需要的是前一张的比例,最好是把另一张改成和前一张一样的比例。
比如我这个最开始没有注意比例,输出的图就是沙发的图的比例了。
2.2
更换背景
提示词:背景换成天坛/西湖/洪崖洞,保证场景自然融洽,光影过渡柔和,材质细节一致,呈现逼真的摄影效果与电影般质感。
光线再调整一下,整体图片更融合一点,夜晚的感觉更明显一点。
3.1
图片变海报
提示词:改变人物动作,增强画面张力,镜头拉近突出面部和衣物质感,将图片修改为Vogue杂志风格海报,高清质感。文字内容更大更突出,加强对比。
3.2
图片上色
提示词:
将图片变清晰,为图片上色
在需要融合人物和场景的时候,我的一句常用句分享给大家:保证场景自然融洽,光影过渡柔和,材质细节一致,呈现逼真的摄影效果与电影般质感。
4.1
换造型+背景
提示词:让图一的女士穿上图二的裙子,更换拍摄角度和背景,让图片和裙子看起来更加高级。确保场景自然融合,光影和材质一致,真实摄影感,电影质感。
4.2
平铺衣服
提示词:
提取人物的衣服平铺
提示词:从上传照片中提取穿搭单品,将它们以平铺展示的方式排列在纯白背景上,保持真实细节与材质质感,时尚电商风格,适合服装展示。
(这个在Gemini尝试的时候失败了,在ai studio 成功了,大家可以多平台试试)
提示词:从上传照片中提取穿搭帽子,将它以三视图展示的方式排列在纯白背景上,并且用手绘字体和手绘箭头符号标注材质,保持真实细节与材质质感,时尚电商风格,适合服装展示。
4.3
一键换装
又有个野路子想法:
图1图2为参考图。
提示词:
(图2)给图一的女孩换上图二的衣服。
(图3)图片变清晰,更换为更符合服装风格的梦幻背景。
(NB模型自己生成背景的审美就只能到这里了hhh)
4.4
服装重纹理
提示词:
为图一的裙子覆上图二的纹理
4.5
一键卸妆
提示词:
为女孩卸妆,变成素颜。
5.1
添加游戏UI
如果我们有一张平平无奇的图,想让它有趣一点,或者把自己的生活变成游戏人生,那么下面这个提示词就很好玩。
这个几个月前我的好友@一泽Eze就玩过了,不过现在效果更好了。
提示词:在图片上叠加完整的游戏UI界面,包括血条、魔法值、技能栏、背包、任务栏、聊天框和小地图,UI风格与画面融合,自然半透明效果,保持主体清晰可见,真实游戏截图风格。
5.2
手办
提示词:将图中三位角色分离,分别制作高精度手办,表面光滑细腻,局部金属漆效果,手工涂装,姿态自然,带有透明亚克力底座,整体呈现高端收藏级手办质感,专业摄影灯光展示。
从影视剧中提取自己喜欢的角色或者道具做手办也好用,C-3PO、R2-D2、BB-8整整齐齐,哈哈哈这个连脏脏的做旧感都保留了🤣需要干净的话可以在提示词中要求。
手办的通用版提示:将指定角色单独生成高精度手办,采用PVC与ABS材质,表面光滑抛光并带有局部哑光磨砂与金属漆细节,颜色采用手工涂装般的渐变与细腻阴影,刻画精致细节(如衣纹、机械零件、五官特征),比例为1/7 / Q版,配备透明亚克力或场景底座,整体呈现高端收藏级手办质感,采用专业摄影灯光展示,真实商业展示图风格。
5.3
等轴测三维图
提示词:
基于这个图片制作等轴测三维图,简约可爱
上面最后一组是ChatGPT 4o的效果,大家觉得哪组更好?
5.4
3D渲染效果
室内设计有福气了朋友们。
提示词:根据图中室内草图,生成三维渲染效果,提供3个不同风格的3D方案,保持空间布局一致,仅在材质、色彩和氛围上有所变化。
NB模型确实牛,控制精准,我让它把效果图里的挂画换掉它也可以:
提示词:日式风格的挂画换成神奈川冲浪里作者的作品
6.1
核心能力
NB的优点主要有以下几点:
写实图像编辑: 换背景、改表情、加物体等,只要是在真实照片的基础上修改,无论背景、光线、姿势怎么变,主角的脸和核心特征都保持得极好。这对创作系列故事、虚拟IP或者拍摄产品图来说,解决了最大的痛点。
保持一致性: 这是它的王牌,能让角色和物体在多次编辑后依然保持原样。
产品与商业图: 对于电商、广告等领域来说,绝对会是生产力工具。
响应速度: 编辑指令的响应时间相当快,我个人感觉比4o快了5倍以上,这种行云流水的体验相当好。
指令领悟力: 它能听懂复杂的指令,然后一步执行到位,非常聪明。同时,它对于物理和光影等方面的逻辑理解也很好。
6.2
不足
非写实风格转换: 像像素、卡通渲染、水彩等艺术风格,效果就一般般。
多图像效果可控性: 同时输入多张图片进行融合编辑时,效果可能一般,有时候就像粗糙的剪切粘贴。可以用我前面的那句提示词进行要求。
完全遵循指令:偶尔会“自作主张”,忽略掉指令中的一部分而自行微调。
要说NB模型强吧,在有的方面真的很强,但是总的来说也不是所有的方向和要求它都能做到的,我之前也有说过,当时在LMArena battle抽卡的时候(链接:https://lmarena.ai/ ),也有它表现一般而另一个模型效果不相上下甚至更惊艳的。这里我放几组对比。
图1原图,图2为NB,图3为qwen-image-edit
提示词:不要以任何方式改变、缩放或更改主体,只修改时间为早晨,阳光打在芭蕾舞者的面庞与身体上。
图1原图,图2为NB,图3为flux-1-kontext-pro
提示词:不要改变、缩放或更改主体,背景不变,镜头转向人物的正面,人物的正面镜头。
图1原图,图2为NB,图3为qwen-image-edit
提示词:把角色变成真实质感,角色坐在地铁里,有可爱的小女孩在旁边和它合影。
图1原图,图2为NB,图3为seededit-3.0
提示词:
给照片上色,其他不变。
图1原图,图2为NB,图3为qwen-image-edit
提示词:保持主体不变,背景替换为置于现代写字楼天台俯瞰夜景,远处城市天际线与灯光。
个人感觉 NanoBanana 想要全面“统治”也没有那么容易,另外在中文方面这里还没有拿出来做对比。
生图模型进步太快了,一日千里,当下真的是神仙打架,各种AI生图工具也是越来越好用,咱们国产也是在逐步崛起了(上面的 qwen-image-edit 和 seededit-3.0 都是国产),尤其qwen-image-edit,竞技场下次有机会单独测一下。
文章来自于微信公众号“阿真Irene”,作者是“宝藏同学阿真”。
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0