大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?
随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?
春节闭关五天,我做了个东西:一个大模型场景化测评平台。35000+ 次模型跑测,一共 42+ 模型,11,000 块人民币。我全部跑完了,结论汇成一个平台,还会持续更新。
针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。
今天早上,Google Labs发布了Pomelli最新功能Photoshoot,我们可以从一张产品图片出发,轻松制作高质量定制品牌照片,用于产品营销。Pomelli是Google Labs联合Google DeepMind于2025 年10月推出的AI营销工具实验项目,底层驱动模型为Nano Banana,专为中小企业设计。
机器之心发布 本文作者为摩尔线程天使投资人、中国初代AI投资人王捷。他于 2025 年 8 月和 12 月分别发表了《浮现中的AI经济》 、《关于AI经济的四十个问题》 两篇文章,对即将到来的 AI
春节前,千寻完成近 20 亿元人民币两轮融资,估值突破 100 亿元,新股东包括云锋基金、混沌投资、红杉中国等财务机构,Synstellation Capital、TCL 创投、明荟投资(汇川技术董事长家办)等产投方,重庆产业投资母基金、杭州金投等国资;顺为、Prosperity7、达晨财智等老股东也继续投资。
近日,千寻智能完成两轮融资近20亿元,估值突破百亿大关。翻看名单,云锋、混沌、红杉等顶级VC坐镇,产业资本与多地国资悉数在列,Prosperity7、顺为资本更是连续多轮加注……
奥特曼又又又又口出狂言了。在印度 Express Adda 的论坛上,Sam Altman 聊了很多 AI 话题,从 AGI 到中美 AI 竞争,再到数据中心用水问题。但最火的那段,是他回应 AI 能耗批评时说的:「人们总谈训练 AI 模型需要多少能源……但训练人类也需要大量能源,得花 20 年时间,消耗那么多食物,才能变聪明。」
几天前的 2 月 14 日,当朋友圈和时间线被玫瑰、爱心和情侣合照刷屏时,一条关于 AI 的推文却悄悄冲上了 91 万+ 的浏览量。发帖人是 Dax Raad —— 一个自学成才的开发者,开源圈“高产到离谱”的构建者,也是那个能让你通过 SSH 在终端里下单买咖啡的极客老板。他没有进行情绪宣泄,只是针对“AI 正在对软件团队做什么”这个问题,给出了一份冷静到近乎冷酷的“诊断报告”:
作者 | 高允毅 很多人知道,Transformer 是谷歌发明的。但 ChatGPT,却不是谷歌做出来的。这件事,在过去几年,几乎成了硅谷最大的“遗憾注脚”。 但如果真正走进今天的 Google D