
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。
「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。
瞧,上面这套“哪里不对改哪里”的操作,就来自“凌晨战神”Qwen团队最新发布的——Qwen-Image-Edit。作为Qwen-Image20B的图像编辑版,Qwen-Image-Edit除了能做上面这种精准的文字修改,还能够新增、消除、重绘、修改元素,而且还支持IP编辑、视角切换、风格迁移等生成式玩法。
今天凌晨,阿里推出了最新图像编辑模型 Qwen-Image-Edit!该模型基于 200 亿参数的 Qwen-Image 架构构建,支持中英文双语精准文本编辑,在保持原有风格的同时完成修改。此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),兼具语义与外观的双重编辑能⼒。
一家名为Palabra AI 的初创公司正在开发 AI 语音翻译引擎,致力于解决教学大型语言模型(LLMs)理解多种语言这一颇具挑战性的难题。
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。
现过去几个月,我把 Claude Code 当“外包程序员”用,爽是爽,但也踩了三大坑:容易跑偏、交付不稳定、成本不可控。直到我换了思路——别把它当单体 AI,而是按角色拆分、按流程固化、按能力外接、按体验提效。
通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。 这也是通义千问系列中首个图像生成基础模型。
AI生图,但是没有AI味,可能么? 一款全新、可编辑、照片级的AI生图模型FLUX.1 Krea [dev]现已发布,可在Krea Edit上免费试用。
做海外社媒运营,可能会陷入这样一个“怪圈”?
还在为发了广告没人点击而烦恼吗?还在纠结为什么花费巨资投放的数字营销效果越来越差吗?现实是,传统的营销漏斗已经彻底坍塌了。今天的消费者,特别是Gen Z和Gen Alpha,他们发现产品的方式已经完全改变:不再通过搜索引擎或者广告,而是通过TikTok的滚动浏览、Reddit的搜索,或者网红的推荐。