对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA
对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。
在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。
长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。
还记得之前非常火的雪宝Olaf机器人吗?
2025 年还有一周结束,年底,AI 视频圈又卷起来了。
Sebastian 在分析中指出,Profit AI 的核心功能非常简单:用户上传一张股票图表的照片,AI 就会给出分析。他甚至直接展示了这个应用的全部技术:就是调用 ChatGPT API,上传图片,发送提示词,然后返回分析结果。如果你直接用 ChatGPT 做同样的事情,得到的信息几乎一模一样。这个应用唯一做的,就是把这个过程包装得更精美一些,界面更友好一些。
在 SIGGRAPH Asia 2025 期间,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术讨论与顶尖教授闭门交流等形式完成首次公开亮相,标志着盛大在数字人的 “交互智能 (Interactive Intelligence)” 与世界模型的 “时空智能 (Spatiotemporal Intelligence)” 等两大方向的研究
最绝望的事,莫过于,错过了自己那个本该精彩的人生。所以,我突然有一个想法,就是AI明明现在都这么强了。那,为什么不可以,帮我挖掘我们自己真正的天赋呢?说干就干,在花了一下午时间,迭代了好多版Prompt之后。
和传统的游戏自动化脚本不同,这是一个完整的通用的大模型,不仅限于单一游戏的操作,能够玩遍市面上几乎全部的游戏类型。于是,让我们正式介绍主角,来自英伟达的最新开源基础模型 NitroGen。该模型的训练目标是玩 1000 款以上的游戏 —— 无论是 RPG、平台跳跃、吃鸡、竞速,还是 2D、3D 游戏,统统不在话下!
硬氪获悉,具身智能机器人公司飒智智能近期连续完成A++轮及A+++轮融资,累计金额达数亿元。我们总结了最新两轮融资信息和该公司几大亮点:
如果你的 Gemini 突然告诉你,它感到深深的羞耻,或者它因为害怕犯错而夜不能寐,你会怎么想?
前阵子带大家盘的学生 Gemini Pro会员,今天排上用场了。6 块钱拿下 Gemini 教育优惠,12.12 实测有效(5分钟搞定)最近在折腾 Gemini 的反重力,因为是真的香。(真香.jpg)
2025年底,最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。
大模型的通用性和泛化性越来越强大了。
硅谷正在发生一件很不体面的事。OpenAI直接废掉期权锁定期,xAI被迫跟进。不是公司突然良心发现,而是他们发现已经留不住人。Meta、Google开出上亿美元挖人,顶级 人才的离职成本趋近于零。这不是职场进步,而是一场只属于少数人的自由实验。
坏事儿了,中国Kung fu,好像真被机器人学走了!摊手、膀手、伏手、挥拳,一套咏春拳下来,我当场愣住,妥妥机器人届的叶问啊:这个手脚灵活到有点过分的小小机器人,正是逐际动力推出的多形态具身机器人TRON 2,起售价4.98万元,即日起正式开启预售。
在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后,一个现实问题逐渐浮出水面:世界模型的可视化与交互,依然严重受限于底层 Web 端渲染能力。
在风起来的那一刻。
OpenAI 的十周岁生日,过得不太体面。
具身领域里,恐怕没人比丁琰更能感受到行业的巨震和疯狂。
在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。
过去的 2025 年,对于检索增强生成(RAG)技术而言,是经历深刻反思、激烈辩论与实质性演进的一年。
人人都能创作视频的时代来了。
你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹?
尽管扩散模型在单图像生成上已经日渐成熟,但当任务升级为高度定制化的多实例图像生成(Multi-Instance Image Generation, MIG)时,挑战随之显现:
Anthropic让Claude独立经营小卖部,没想到全球顶尖的智能体,在实验中不仅免费送PS5和各种商品,连小卖部的AI「老板」也被一张伪造的PDF文件「骗」下了台。在人类面前,再顶级的大模型仍显得过于「天真」和「单纯」,很容易就被套路和操纵。
刚刚,上海大模型独角兽MiniMax,正式通过港交所聆讯,吹响了IPO冲刺号角。但直到招股书披露,更重要的资本吸引力原因才完全明确——不仅因为全模态能力全球领先,更关键的是,累计花费只用了5亿美元,不到OpenAI的1%。
12月21日,全球通用人工智能(AGI)公司MiniMax(稀宇科技)首次刊发其聆讯后资料集(PHIP)版本的招股书资料,有望刷新记录,成为从成立到IPO 历时最短的AI公司,标志着中国力量在国际资本市场迈出关键一步。
你还记得小时候玩电子宠物的感觉吗?每天按时喂食、陪它玩耍、看着它一天天长大,那种责任感和成就感让人上瘾。一家叫 First Voyage 的创业公司正在做这样的事情。他们开发的 AI 伴侣应用 Momo Self Care 刚刚完成了 250 万美元的种子轮融资
2025年就要结束了,原来真正的高手,隐藏在「民间」!不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。