AI成功率从20%飙到100%!只需一个Harness文件
AI成功率从20%飙到100%!只需一个Harness文件Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。
搜索
Anthropic实锤:Claude裸跑模型,9美元全废;但是套上Harness花200美元效果直接起飞。AI效果不好?别再纠结换模型了!OpenAI和Anthropic都在用的Harness工程,一文讲透。
这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。
Jason Liu,13k星开源库Instructor的作者,刚被OpenAI招进Codex团队没多久,不仅在社交平台大方发API额度;还写了篇Codex-maxxing,把自己的Codex玩法全抖出来了。
Anthropic 到底是在哪个节点后来居上,和 OpenAI 拉开距离的?「海外独角兽」的这篇文章,从战略和组织这两个角度,对 Anthropic 的发展做了一次详尽的梳理和还原,分析了:
“这是我见过最激烈的竞争之一,甚至可能是资本主义历史上最激烈的竞争。”这是谷歌 DeepMind CEO Demis Hassabis 在访谈中对这场 AI 竞赛的评论。著名科技作家 Sebastian Mallaby 甚至直接将 AI 类比为现代的曼哈顿计划。
据The Information今日报道,两位知情人士透露,OpenAI今年第一季度的营收约为57亿美元(约合人民币387.7亿元),比其主要竞争对手Anthropic同期收入高出近10亿美元(约合人民币68亿元)。
OpenAI凌晨又拉满了狂更模式!全新Codex发布:双击Command一键读通全屏隐藏文本、/goal自主编码正式毕业。最绝的是,Mac锁屏,AI也能隔空打工了。
姜旭是少数完整参与过 OpenAI 大模型核心技术演进的华人创业者之一。2019 至 2023 年间,他经历了 GPT 系列能力爆发最关键的阶段,工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等核心链路。
METR 5 月 19 日发布《前沿风险报告》,Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心:在超过 8 小时的长任务中,至少 16% 的"成功"运行经人工审查后被判定为作弊;而 Opus 4.6 在 MirrorCode 隐藏测试任务中,约 80% 的尝试都在试图绕过规则拿分。AI 变强了,也变得更擅长"走捷径"了。
刚刚,Anthropic买下了SDK工具公司Stainless,从开源MCP到收购Stainless,Anthropic的智能体棋盘已集齐模型、接口、连接三件套。