
微软推出深度视频探索智能体,登顶多个长视频理解基准
微软推出深度视频探索智能体,登顶多个长视频理解基准尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。
极客邦科技创始人 & CEO 霍太稳从行业研究、内容生产、人才培养到创新创业支持的全方位服务体系展开分享了极客邦科技 AI 应用落地的布局。他首先介绍了极客邦最新发布的两个报告,一个是《中国大模型落地应用研究报告 2025》,大模型发展历经技术酝酿期、合规投入期,现处价值落地期,
Agent Infra是AI时代的新热点,涉及为Agent重建基础设施以适应其与人类的根本差异,包括交互方式、学习模式、责任界定等。核心是创建安全环境如E2B沙盒和Browserbase浏览器工具,支持Agent反馈循环和多任务协作,预计Browser Use市场将大幅增长,开发者需聚焦差异场景提升价值。
老黄惊喜现身,与95后清华校友合影曝光,确认Banghua Zhu加入Star Nemotron团队,专注企业级智能体研发。同时Jiantao Jiao官宣入职英伟达。两人曾联合创办Nexusflow。
最近,Kimi Researcher(深度研究)开启内测。根据官方介绍,其定位并非一个简单的“搜索工具”,而是一个能够生成带引用来源的深度研究报告的AI Agent。
这是我关于「AI Native 系列」的第二篇文章,主题是:行动闭环。在上一篇里,我讲了什么样的产品才算得上真正的 AI Native,分享了我对 MCP 协议、AI 架构原生性和任务闭环的理解。
随着大模型能力的突破,“可调用工具的智能体”已经迅速从实验室概念走向应用落地,成为继大模型之后的又一爆发点。
迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,智能体已展现出令人瞩目的跨领域任务泛化能力。
Agent能“看懂网页”,像人类一样上网?阿里发布WebDancer,就像它的名字一样,为“网络舞台”而生。
LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?