AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了
AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。
近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。
AI一分钟,人类十年功! 一觉醒来,AI推理模型已横扫特许金融分析师CFA考试。在一级考试中,Gemini 3.0 Pro创下97.6%的历史最高纪录。二级考试中,GPT-5以94.3%的成绩领先。
最近,视频会议软件公司 Zoom 发布了一条出人意料的消息:他们宣称在“人类最后的考试”(Humanity s Last Exam,简称 HLE)这个号称当前 AI 领域最具挑战性的基准测试上,取得了 48.1% 的成绩,比此前由 Google Gemini 3 Pro(带工具)保持的 45.8% 高出 2.3 个百分点。
Flaviu Radulescu于2023年创立Runware,当时他在测试一家文本转图像公司时意识到,尽管生成式AI技术很强大,但生成图像的速度很慢。
GPT-5.2也发布了有几天了。
当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难题。
如果说2023年是生成式AI的「出道年」,2024年是「炒作年」,那2025年,就是生成式AI真正走进普通人生活的「落地年」。
6位前DeepMind成员以元系统重塑大模型调用方式,该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首,而成本仅为此前最优方法的一半。
近日,浙江大学副教授胡星和团队开发出一款名为 CatCoder 的 AI 框架,它能够读懂一个完整的软件项目,生成准确、可用的代码。在 Java 任务上,它在代码编译通过率和测试通过率上,比业内表现突出的代表之一 RepoCoder 最高提升了 14.44% 和 17.35%。
11 月 30 日,真格举办了一场关于 AI 创业的分享活动。真格管理合伙人戴雨森与 Kimi 总裁张予彤、与爱为舞创始人张怀亭、Manus 联合创始人张涛一同走进清华大学,带来了一场关于创新与未来的深度对谈