Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单
Claude Code“隐形技术栈”被扒出来了!2430次测试揭秘工具偏好清单最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。研究覆盖3款模型、4种项目类型及20个工具类别,累计分析了2430次工具选择行为。
最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。研究覆盖3款模型、4种项目类型及20个工具类别,累计分析了2430次工具选择行为。
「DeepSeek V4 来了!」这样的消息是不是已经听烦了?总结来说,这篇新论文介绍了一个名为「DualPath」的创新推理系统,专门针对智能体工作负载下的大语言模型(LLM)推理性能进行优化。具体来讲,通过引入「双路径 KV-Cache 加载」机制,解决了在预填充 - 解码(PD)分离架构下,KV-Cache 读取负载不平衡的问题。
刚刚,阿里云Coding Plan订阅服务全面上线Qwen3.5、GLM-5、MiniMax M2.5、Kimi K2.5四大顶尖开源模型。用户订阅套餐后,可在Qwen Code、Claude Code、Cline、OpenClaw等AI工具上自由切换使用这些模型,享受更稳定、Tokens额度更高的模型服务。
传统AI模型在稀疏奖励环境中,往往会找不到激励难以学会层次化思考。如今,谷歌团队通过引入元控制器操控模型内部残差流,让智能体学会了「跳跃式思考」。该研究揭示了大模型内部可自发形成了类似人脑的层次化决策机制,为AI在需要多步的复杂任务提供了全新的训练范式。
各位对Agent Skill早已轻车熟路。不可否认,在Claude code、Openclaw的加持下,这套框架效果极佳。但工业界的痛点在于:它几乎沦为了超大型闭源API的专属玩具。当您的项目面临金融
当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。
一周一更,谷歌又在深夜扔出「深水炸弹」。就在刚刚,最强生图模型Nano Banana 2横空出世,背靠全新Gemini 3.1 Flash Image。 它不仅生成速度飞快,多语言文字处理更强,还能实时联网,一次直出4K大片。
入职Meta「超级智能实验室」仅7个月,华人明星研究员庞若明(Ruoming Pang)转投OpenAI。此前,他曾担任苹果AI/ML基础模型团队负责人,却因内部不合,转身离开。为了挖走庞若明,小扎曾为他开出高达2亿美金薪酬包。在此期间,他主要在MSL中,担任AI基础设施负责人。
2026 年 2 月 15 日,Sam Altman 宣布:Peter Steinberger 加入 OpenAI,负责下一代个人 Agent。11 天后,Anthropic 宣布收购 Vercept。但这两件事放在一起看,说的是同一件事:AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」,到「谁能让 AI 真正控制一台电脑」。
是时候了!陶哲轩对AI生成的低质量数学内容提出警示。这次他一反常态,没有来安利大模型,而是辩证审视:AI生成数学是把双刃剑。AI大幅增加数学新想法,但也降低平均想法质量。