第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%
第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。
Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。
香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。
2月初,一家名为Lotus Health AI的创业公司宣布完成了4100万美元融资,其中包括3500万美元的A轮融资和此前的种子轮。当这两家机构同时看好一家公司时,通常意味着这家公司正在做一些真正具有变革性的事情。而Lotus Health AI正在做的,就是用AI重新定义初级医疗服务的每一个环节。
就在刚刚,OpenAI 终于宣布完成 1100 亿美元新一轮融资,投前估值高达 7300 亿美元。这笔融资额已经超过了绝大多数科技公司的总市值,OpenAI 的估值更是直逼特斯拉。
最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。研究覆盖3款模型、4种项目类型及20个工具类别,累计分析了2430次工具选择行为。
2月26日,xAI Grok 4团队核心成员Jiayi Pan宣布离职。在离职声明中,他感谢了团队所有成员,给马斯克留足了面子。他已经离开了xAI,去向未知。但他留下的代码和论文清晰地指向一个方向:
刚刚,阿里云Coding Plan订阅服务全面上线Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大顶尖开源模型。用户订阅套餐后,可在Qwen Code、Claude Code、Cline、OpenClaw等AI工具上自由切换使用这些模型,享受更稳定、Tokens额度更高的模型服务。
基于Gemini 3 Deep Think的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。在公布的完整成绩单中,10道题Aletheia全程0人工参与解出6道,其中5题专家全票通过,还有一题拿到了5/7的通过率。
当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。
一周一更,谷歌又在深夜扔出「深水炸弹」。就在刚刚,最强生图模型Nano Banana 2横空出世,背靠全新Gemini 3.1 Flash Image。 它不仅生成速度飞快,多语言文字处理更强,还能实时联网,一次直出4K大片。