神秘AI模型Nano-Banana火了,冒出一堆假网站,李鬼和李逵傻傻分不清。
最近,AI 社区又冒出一个神秘的图像生成和编辑模型,名叫 Nano-Banana。
起初它在 LMArena 平台的「Battle」模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声称其归属。
不过很多网友循着蛛丝马迹,猜测这可能是谷歌的研究模型。
上周二,谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。
谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。
再加上谷歌过去曾将其较小的模型称为「Nano」,而且其生成图像的质感与 Google 的 Imagen 或 Gemini 系列相似。
以上种种,似乎都在暗示它出自谷歌之手。
该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。
比如,上传一摞书和卧室床头柜的图片,输入提示词「Flip stack of books to be upright and put on table between two bookends.」
它能精准理解复杂文本提示,将横放的三本书立起来,并加上书挡摆放到柜子上。
上传一张模特照再加上一张棒球帽子图,输入提示词:「Put the baseball hat on the woman.」
棒球帽上有着复杂的文字和图案刺绣,Nano-Banana 编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能一致性。
在产品照片、场景搭建图、广告等商业场景下,Nano-Banana 的表现也稳得一批。
当然,它也并非完美无缺,在某些情况下,Nano-Banana 生成的图像可能出现反射、光照逻辑或物体位置不一致等视觉问题,人物的手指也偶尔出现畸形的情况。
如果细看上图中生成的书籍,就会发现其中的瑕疵:书名出现了「鬼画符」。
由于尚无官方 API 或正式的官网链接,我们只能通过 LMArena 随机体验该模型。
换句话说,每次都得靠运气才能遇到 Nano Banana,体验很不稳定。
更搞笑的是,网上出现了一堆假网站,声称提供 Nano Banana 服务,让不少网友李鬼和李逵傻傻分不清。
我们也来了个一手测评。
打开 lmarena 官网,选择 Battle 模式,可以直接输入提示词进行文生图,也可以上传图片、输入提示词再进行 AI 编辑。
官网链接:https://lmarena.ai/
页面会出现两个匿名模型同时生成图片,只有当我们选出其中生成质量最好的一张图片时,平台才会亮出对战双方的身份。
先来试试文生图效果。
我们输入同样的提示词:Present a portrait-style image in a Polaroid photo shoot style. In the picture, there is a makeup artist with long, loose curly hair, wearing oversized clothing. She has a delicate face and exudes a casual vibe, posing with a peace sign directly at the camera, creating an ultra-free atmosphere. The image has a slight grainy texture, with vibrant and captivating colors,1:1.
第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。前者生成的图片背景中有杂乱的眼影盘、指甲油等,更符合提示词中的「化妆师」身份,而且人物的动作、服装细节更自然,手部也没有明显的瑕疵;而后者背景较为单一,大拇指也有些虚化。
再来试试它的图片编辑功能。
上传一张旧金山阿拉莫广场的野餐照片,输入提示词:Add some humanoid robots in the park,make them blend with the environment.
乍一看我们还以为 Nano Banana「罢工」了,直到在画面右侧找到了一个正在走路的类人机器人,它完全融入环境,毫无违和感。
我们上传一张人物摄影照片,让 Nano Banana 进行逆向工程描绘其创作过程。
提示词:Show the set being set up before, the model is sitting up scrolling her phone, there is a woman behind the model fixing her hair, a man up on a ladder, hanging the curtain in the background, revealing the studio behind it.
有网友用 Nano Banana 让碧梨和迈克尔・杰克逊跨时空自拍:
我们也尝试了下。上传马斯克和奥特曼的照片,输入提示词:The two people are happily taking a selfie.
Nano Banana 确实生成了一张自拍照,马斯克的形象、动作也几乎找不出什么问题,只是奥特曼大变样。
为了不「冤枉」它,我们又给了它一次机会,Nano Banana 还是翻车。
难度继续升级。上传小扎、马斯克肖像照和一张风景照,让 Nano Banana 把两个人自然地放在图三中。
Gemini 2.0 flash 生成的效果完全认不出这两个大名人,而 Nano Banana 将二人完美融入图三环境中,不过手指等细节方面还是有瑕疵。
如果把 Nano-Banana 和谷歌的 Veo3 结合在一起,会碰撞出怎样的火花?
@a16z 合伙人 Justine Moore 就搞了个新工作流,用于制作较长的视频。
下面这个视频是一个游戏或电影中的潜行任务场景,角色从昏暗的博物馆中盗取一幅名画,触发了激光警报。
她还放出了制作教程。提取第一个视频片段的最后一帧,将该帧上传到 lmarena 上的 Nano Banana,提示生成下一个场景,例如「角色转向走廊」,然后将新生成的帧用 Veo 3 进行动画制作。
X 网友 @ZHO_ZHO_ZHO 则发现了 Nano-Banana 另一种好玩的用法 —— 把插画变成手办。
上传一张图片,输入提示词:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.
据该博主测评,Nano-Banana 生成的图几乎没有 AI 味,五官和细节都保留得很好,真实感十足。
然后再用 Veo3 将其制作为 8 秒视频。提示词:Pick up the figure with both hands and show it from all angles.
底下评论区不少网友也按照上述工作流整活。比如哪吒双手抱拳的:
还有哆啦 A 梦的,正面看哆啦 A 梦的尾巴挺正常,但转个身就大变样:
我们也复刻了下,上传一张 Q 版插画图片,输入以上提示词。
效果如下:
最后打开 Gemini 2.5 Pro,选择 Video,上传生成的图片,输入提示词,静待 1 分钟左右,就能得到一段 8 秒视频。
上周末,谷歌 Veo 3 对所有 Gemini 用户免费开放,供其体验 AI 视频生成功能。
不过,这项免费体验活动只持续到太平洋时间 8 月 24 日晚上 10 点(北京时间 8 月 25 日上午 1 点) 。在此期间,免费用户每天最多可以生成 3 个 8 秒的视频片段,每个视频都包含自动生成的音频。
通常,Veo 3 的视频生成功能仅对 Google AI Pro 或 Ultra 订阅用户开放。Pro 用户每天可生成 3 个视频,而 Ultra 用户的配额为 10 个视频。
感兴趣的朋友也去体验一波吧。
https://x.com/ginacostag_/status/1959234207127134340
https://x.com/venturetwins/status/1957155767888548160
https://x.com/techhalla/status/1959186906115354692
https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573
文章来自于微信公众号“机器之心”,作者是“关注AI的”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0