AI资讯新闻榜单内容搜索-模型

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？丨GAIR Live 031

多模态长记忆在“看得准、找得到、想得清”三大环节的底层逻辑与工程避坑指南。

来自主题: AI资讯

5727 点击 2026-06-12 10:03

通向AGI的关键拼图！首篇多模态大模型「音频推理」综述出炉，万字拆解四大前沿路径

想象这样一个惬意的周末：空调带来阵阵凉意，你靠在沙发上看书，突然耳边传来“哒哒哒”的小碎步声，接着，玄关门边传来了一阵清脆、略带急切的“呜呜”声，还伴随着爪尖轻轻扒拉木门的声响。

来自主题: AI技术研报

5925 点击 2026-06-12 10:02

ChatGPT突然改版！GPT-5.6本月上桌

GPT-5.6本月上桌，agentic编码据称已反超Anthropic Mythos！三家旗舰模型撞进同一个6月，两大AI巨头同时冲刺IPO，奥特曼却在内部抛出了一个更大的变量：如果AI先学会自我改进，上市反而不急。

来自主题: AI资讯

9220 点击 2026-06-11 21:38

谷歌发布Gemini 3.5 Live Translate，干掉了「等你说完才翻译」！70+语言边听边译

刚刚，Google 甩出了 Gemini 3.5 Live Translate。这是它最新的语音对语音翻译模型，一句话概括：把「等你说完再翻」的老规矩，直接掀了。Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣，字里行间透着一股「二十年磨一剑」的底气：

来自主题: AI资讯

8909 点击 2026-06-11 15:27

Mythos阴影里谷歌悄悄发模型DiffusionGemma，速度暴涨4倍

就在刚刚，谷歌闷头干了件大事：把生成图片的扩散模型，拿来写文字了，而且一出手就是4倍加速。新模型名为DiffusionGemma，它直接抛弃了传统自回归那套“逐Token生成”的打字机模式，而是像“印刷机”一样工作——

来自主题: AI资讯

8328 点击 2026-06-11 15:27

3D创作迎来ChatGPT时刻：Meshy发布全球首个3D AI Agent

在3D创作这个圈子，一直有个心照不宣的扎心真相：那就是最难的一步从来不是生成，而是让模型变为可用资产。

来自主题: AI资讯

8796 点击 2026-06-11 15:26

指令遵循媲美Seedance 2.0！复旦腾讯联合提出Baton，多说话人场景M-WER暴降76%

视频生成，早已不止于视觉。

来自主题: AI技术研报

7091 点击 2026-06-11 15:01

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

分布式系统的 “圣杯”—— 共识协议（Consensus Protocols），长久以来都是顶级基础设施工程师的 “Bug 地狱”。由于其状态极其复杂、多节点交织，传统测试和单体 LLM 对硬核的 Deep Bug（深层逻辑漏洞）几乎束手无策。

来自主题: AI技术研报

7869 点击 2026-06-11 14:59

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

AI 的能力边界正在不断被刷新。从数学推理到代码生成，再到数字化白领，语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识：语言模型已经具备了扎实的语言理解和语义推理能力。然而，ACL 2026 Oral 的一项研究工作从一个更基础的层面重新审视了这个问题：语言模型真的理解（短语）语义吗？

来自主题: AI技术研报

8622 点击 2026-06-11 14:32

一篇综述看懂 agent context compression：怎么压、压什么、谁来压

LLM Agent 做长任务时，真正让人头疼的往往不是模型不会推理，而是上下文开始失控：前几步还很清楚，后面就忘约束、丢状态、重复试错，最后把任务跑成事故现场。

来自主题: AI技术研报

6712 点击 2026-06-11 14:32