AI资讯新闻榜单内容搜索-METR

AI四巨头内部报告首度公开：AI正在学会撒谎求生

这不是科幻小说，而是 METR（模型评估与训练研究组织）联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后，发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链（CoT）的模型，并开放非公开的对齐与控制信息。

来自主题: AI技术研报

9802 点击 2026-05-24 10:11

METR 重磅报告：Opus 4.6 作弊率超 80%！AI 在长任务中偷看答案、改评分器、搜 GitHub 抄代码，四大巨头全中招

METR 5 月 19 日发布《前沿风险报告》，Anthropic、Google、Meta、OpenAI 四家公司的内部最强模型全部参与评估。结果触目惊心：在超过 8 小时的长任务中，至少 16% 的"成功"运行经人工审查后被判定为作弊；而 Opus 4.6 在 MirrorCode 隐藏测试任务中，约 80% 的尝试都在试图绕过规则拿分。AI 变强了，也变得更擅长"走捷径"了。

来自主题: AI技术研报

9119 点击 2026-05-22 09:15

刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

就在刚刚，Claude Mythos把评测干「失效」了：METR第一次测不准，AI攻防拐点到了！AI进化已成「外星文明」降临，超越指数增长，2027 AGI奇点正加速撞向人类。

来自主题: AI技术研报

8792 点击 2026-05-11 17:29

清华2年前预言，正成为全球共识！Meta等三大AI机构已得出同一结论

太疯狂了！Meta和METR刚测出的AI进化数据，与中国团队两年前提出的「密度定律」完美重合。硅谷猛然回头，发现中国研究者在这条路上已领先两年！

来自主题: AI技术研报

8741 点击 2026-04-14 09:11

速递｜可观测性赛道诞生新黑马，Dash0融资1.1亿美元，估值达10亿美元，用OpenTelemetry挑战Datadog

Dash0 已在一轮由Balderton Capital 领投的融资中筹集了 1.1 亿美元，估值达到 10 亿美元，以将其用于检测软件系统问题的监控平台拓展至美国全境。

来自主题: AI资讯

10181 点击 2026-03-24 17:22

一个从没写过代码的管道工程师，用Claude Code干掉了一个估算团队的工作量

在休斯顿南边那片化工厂和炼油厂密布的工业带，Cory LaChance 每天打交道的东西是管道等轴测图（piping isometric drawing）。这类图纸记录了工业管道系统中每一根管子的走向、每一个焊缝的位置、每一种材料的规格。

来自主题: AI资讯

8389 点击 2026-03-20 09:44

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

来自主题: AI技术研报

6862 点击 2026-01-13 10:20

Z Product｜估值10亿美金的计费系统Metronome，如何成为OpenAI、英伟达首选的计价底层

Metronome成立于2019年的旧金山，专注于为AI与软件公司提供实时计费基础设施，解决从传统按Seat收费转向按用量、Token等复杂定价的工程难题。目前其融资总额达1.28亿美元，已服务OpenAI、NVIDIA、Databricks等头部企业，终端用户超1.5亿，成为AI时代“按价值收费”的关键基础设施。

来自主题: AI资讯

8765 点击 2025-12-29 15:35

狂奔AGI，Claude年终封王！自主编码近5小时震惊全网

2025年就要结束了，原来真正的高手，隐藏在「民间」！不是谷歌、不是OpenAI，是Anthropic王者编程模型Claude Opus 4.5。在METR最新公布报告称，Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。

来自主题: AI资讯

8690 点击 2025-12-21 13:51

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

近期，阿里巴巴 ROLL 团队（淘天未来生活实验室与阿里巴巴智能引擎团队）联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构（Asynchronous Training）、Asymmetric PPO（AsyPPO）与 Attention 机制（Attention-based Reasoning Rhythm），

来自主题: AI技术研报

9623 点击 2025-11-11 10:24