
舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿
舍弃自回归,离散扩散语言模型如何演化?NUS综述解构技术图谱与应用前沿本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。
本文主要介绍 xML 团队的论文:Discrete Diffusion in Large Language and Multimodal Models: A Survey。
当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。
Agent能力每7个月翻一番!
GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。
超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。
从GPT-2到Llama 4,大模型这几年到底「胖」了多少?从百亿级密集参数到稀疏MoE架构,从闭源霸权到开源反击,Meta、OpenAI、Mistral、DeepSeek……群雄割据,谁能称王?
难得难得,几大AI巨头不竞争了不抢人了,改联合一起发研究了。
剧本杀大家都玩过吗?这是一种经典的桌上角色扮演游戏(TTRPG), 游戏中的核心人物是游戏主持人(GM), 相当于整个世界的「导演 + 编剧 + 旁白」,负责掌控游戏环境,讲述故事背景,并扮演所有非玩家角色(NPC)。
大模型在潜空间中推理,带宽能达到普通(显式)思维链(CoT)的2700多倍?
自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。