通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径
通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径想象这样一个惬意的周末: 空调带来阵阵凉意,你靠在沙发上看书,突然耳边传来“哒哒哒”的小碎步声,接着,玄关门边传来了一阵清脆、略带急切的“呜呜”声,还伴随着爪尖轻轻扒拉木门的声响。
搜索
想象这样一个惬意的周末: 空调带来阵阵凉意,你靠在沙发上看书,突然耳边传来“哒哒哒”的小碎步声,接着,玄关门边传来了一阵清脆、略带急切的“呜呜”声,还伴随着爪尖轻轻扒拉木门的声响。
“我们有点处在自己的科技泡沫里。”
这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。
METR 5 月 19 日发布《前沿风险报告》,Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心:在超过 8 小时的长任务中,至少 16% 的"成功"运行经人工审查后被判定为作弊;而 Opus 4.6 在 MirrorCode 隐藏测试任务中,约 80% 的尝试都在试图绕过规则拿分。AI 变强了,也变得更擅长"走捷径"了。
昆仑万维在年报中宣告,公司正全面All in AGI与AIGC,并在2026年将战略升级为"4+3",即以视频、音乐音频、世界、基座文本四大SOTA模型为底座,支撑AI短剧、AI音乐、AI游戏三大平台。
没错,用的就是主打长程任务、模糊指令遵循,跻身国产Agent第一梯队的小米MiMo‑V2.5 Pro。小米最新发布的MiMo‑V2.5系列,包含Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型,综合实力对标国际顶尖水准。
当很多具身智能公司更关心机器人先在哪些场景里跑通商业化时,自变量更想寻找哪条路径能够通往 AGI。
马斯克放豪言:Grok 5就是AGI!五月连发1T和1.5T两代万亿参数模型,四大AI巨头的AGI竞赛正式进入短兵相接的终局阶段。
Modus 以 8500 万美元 融资的消息却撬开了这块大陆,它引发的深远影响不仅仅关乎金钱的流动,而是深刻挑战了这个“稳固”的行业底层架构。本轮融资由 Lightspeed Venture Partners 领投,Garry Tan 等投资人参与,但更令人注目的是,这家公司没有走典型的 AI 路径
年前,我们曾和百度秒哒产品总经理朱广录过一期播客Vibe Coding 下半场:四大天王,和想赢的人|对话朱广翔:百度秒哒产品总经理,听他分享了中国用户们的本土化 Vibe Coding 实践。