比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA比Nano Banana更擅长P细节的图像编辑模型来了,还是更懂中文的那种。
比Nano Banana更擅长P细节的图像编辑模型来了,还是更懂中文的那种。
最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。
Nano Banana成为爆款之后,Gemini月活达到了6.5亿。AI业务带动之下,谷歌季度营收也首次突破千亿美元,交出了有史以来最亮眼的成绩单。什么概念?市值刚刚突破5万亿美元的英伟达,2025财年上半年的收入也刚刚突破1000亿。
在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。这次苹果发布的研究成果的确出人意料:他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。
这些刷屏的AI图片,你刷到了没?就是那种——和自己专属emoji合影的黏土风照片,画风长这样:本来以为是NanoBanana整的新玩法,结果点开评论区一看:嗐,原来是美图自家的AI Agent——叫RoboNeo~
你永远无法精确描述出梵高的笔触或王家卫的光影。AI创作的未来,是让AI直接「看懂」你的灵感,而不是去揣摩你的指令。
在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解、生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
AI传奇人物、前特斯拉AI总监Karpathy重磅推出全新开源项目「nanochat」,以不到8000行代码复现ChatGPT全流程,只需一台GPU、约4小时、成本仅百美元。该项目在GitHub上线不到12小时即获4.2k星标!
讲真,AI生图圈的内卷速度简直离谱。8月底的Nano Banana、9月中的即梦4.0已经把画质和效果卷到了一个新高度,但我还在纠结到底该把谁设为主力工具,因为总觉得他们差点什么:不是出错就是不懂场景。