
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。
AI领域的竞争,远未到鸣金收兵的时刻。
上周的开发者大会,谷歌冷不丁地掏出个 Veo3 就惊艳了全球。
Google I/O 2025 结束后,Google CEO Sundar Pichai 接受了《The Verge》主编专访,这也是双方连续第三年于 I/O 后展开对谈,而今年的背景更为特殊:Gemini 模型全面更新、多模态生成工具 Veo3 登场、AI 功能深度融入 Android 与 XR 平台,Google 展现出前所未有的产品化信心。
大家好,我是袋鼠帝 还记得前两天Google IO大会上他们发布的最新视频模型Veo3吗 它可以根据提示自动添加环境音效、背景噪声、音乐和对话,并与画面完美同步 而且生成的视频相当炸裂,已经让我有点分不清虚幻与现实了 比如这位推特大神(Hashem Al-Ghaili)用Veo3制作的视频,相当🐂🍺
想象一下,你是一位金融分析师,面前堆满了数百页的季报、SEC文件和市场数据,你需要在明天早上交出一份全面的行业分析报告。
简单来说,Google Stitch 是一款由 AI 驱动的 UI 设计工具,能根据你的自然语言描述,自动生成高质量的网页和移动端界面。不止如此,它还支持直接导出 HTML/CSS 代码,甚至可以一键粘贴进 Figma,实现从原型到上线的无缝衔接。
在刚刚结束的 Google I/O 开发者大会中,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着“关键词+链接列表”,开始拥抱“自然语言交互+结构化答案”的“新”范式了。
在Google I/O的第二天,硅星人有机会和Google CEO Sundar Pichai交流。在这场小范围的沟通中,Pichai及Google的多名核心业务负责人回答了从搜索到广告再到AI等多个问题。今年是Pichai执掌Google的第十年,过去三年带领Google从OpenAI的冲击中走出,如今看来很可能成为他CEO生涯至今打过的最重要一仗。
今年,Google算是打了个翻身仗。