真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。
当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。
北斗智影发布AI“七星Agent”加速短剧出海
2025上半年AI Agent领域经历模型竞争加剧和范式演进,DeepSeek等新模型打破垄断,推动Tool Use和强化学习突破。Agent从Prompt、Workflow发展为自主决策、环境感知和工具使用的智能体。编程领域验证PMF,落地机会集中于垂直场景和C端创新,但商业壁垒和技术挑战仍待解决。
汪渊 Raymond 已经重新开始创业,而且方向是当红的 AI 应用,公司名叫:Orion Arm,主体注册在新加坡,主做海外市场。Orion Arm 最近刚刚完成一笔 1100 万美元融资,投后估值 1 亿美元。有趣的是,他们做的不是 Agent,不是当前热门的那些领域,而是纯粹的工具Orion Arm 发布了两款 AI 工具:日程管理类的 Toki 和新闻聚合类的 Syft。
说实话,看到这个项目估值接近 1 亿美金的时候,我有点震惊。这是最近海内外都很火的一款 AI 工具,Same.new。上线 8 周,就吸引了 35 万用户,年化收入做到 200 万美元。创始团队和 Same.new 的产品数据一样叛逆,3 个辍学的大学生,平均年龄 21。
Cluely 和 Roy Lee,想必大家对这两个名字已经不陌生了。
多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略——通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。
就像是播放音乐,Prompt Engineering是在调音响的音量,那Context Engineering就是在设计整个音响系统,从音源、功放、音箱到房间声学,每个环节都要精心设计。Context Engineering本质上是设计和优化AI模型整个上下文窗口的工程学科。这不只是一个技术升级,更像是思维模式的根本转变。
根据 Anthropic 最近公布的一项数据,他们的 Claude Code 已经吸引了 11.5 万名开发人员,并在一周内处理了 1.95 亿行代码。而这款工具,才刚刚发布 4 个多月。Menlo Ventures 风险投资家 Deedy Das 据此推断,仅靠 Claude Code 这个产品,Anthropic 的年收入就可能达到 1.3 亿美元。
本期《Upstream》对话 Roy Lee——Cluely 的联合创始人,也是当下最“出圈”的 Z 世代创业者。他的故事堪称反传统:从接连被哈佛、哥大被开除,到靠一个 AI 面试“作弊工具”做出 2.5 亿次曝光的爆款原型。