AI资讯新闻榜单内容搜索-Ark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Ark
不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

不止修bug:Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报
7701 点击    2026-03-04 13:44
去Polymarket上与人类赌博的OpenClaw,已经月入数万美元了

去Polymarket上与人类赌博的OpenClaw,已经月入数万美元了

去Polymarket上与人类赌博的OpenClaw,已经月入数万美元了

2月13日,OpenClaw官方的博文提到,一个由OpenClaw驱动的机器人证明了自主智能体在预测市场的强大潜力——单周狂揽11.5万美元利润。1月底,Polymarket也发布过一条有趣的帖子:Agent们正在Polymarket上进行交易,试图补贴自己的token成本。

来自主题: AI资讯
9841 点击    2026-03-03 10:54
ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师

来自阿里高德的一篇最新 ICLR 2026 中稿论文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生图空间智能的系统性评估基准 SpatialGenEval,旨在通过长文本、高信息密度的 T2I prompt 设计,以及围绕空间感知

来自主题: AI技术研报
10108 点击    2026-02-22 11:17
苹果 AI 硬件三件套曝光,iPhone 将迎来史诗级加强

苹果 AI 硬件三件套曝光,iPhone 将迎来史诗级加强

苹果 AI 硬件三件套曝光,iPhone 将迎来史诗级加强

据彭博社记者 Mark Gurman 爆料,苹果正在加速推进三款全新的 AI 可穿戴设备。这三款产品都将围绕 Siri 数字助手构建,通过摄像头获取视觉上下文来执行各种操作。

来自主题: AI资讯
10807 点击    2026-02-18 13:37
OpenAI史上最快模型降临,每秒1000Token!代码从此「炸出来」

OpenAI史上最快模型降临,每秒1000Token!代码从此「炸出来」

OpenAI史上最快模型降临,每秒1000Token!代码从此「炸出来」

OpenAI深夜突袭,GPT-5.3-Codex-Spark正式炸场。核心卖点只有一个:快!每秒1000个token,让代码生成告别加载条。联手Cerebras怪兽级硬件,物理外挂直接拉满。这不再是简单的工具升级。而是一场关于速度的暴力美学。

来自主题: AI资讯
9796 点击    2026-02-14 18:38
今天,AI Agents 正式成为网络第一公民

今天,AI Agents 正式成为网络第一公民

今天,AI Agents 正式成为网络第一公民

Cloudflare 宣布推出 Markdown for Agents。只要在 Agent 的请求设置里头加上一句——Accept: text/markdown。网站就会自动返回为 Agent 识别优化的 Markdown 文件,而不是为人类准备的 HTML 文件。

来自主题: AI资讯
7564 点击    2026-02-14 10:37
发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

发布 ChatGPT 健康 6 天后,OpenAI 在自家医疗健康 Benchmark 上被百川M3模型反超

百川智能表示今年上半年,将陆续发布两款 to C 的医疗产品。 作者|Li Yuan 编辑|郑玄 你有没有向 AI 助手问过你的健康问题? 如果你和我一样是一个 AI 的深度用户,大概率你也试过。 O

来自主题: AI资讯
9777 点击    2026-01-14 09:24
Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

在文章开始前,请您先打开Claude code,输入/skill,检查一下您的Claude code有多少个skills?是20个?50个?还是已经突破了100个?自从Anthropic推广Agent Skills以来,我们都爱上了这种“即插即用”的模块化体验。它把臃肿的多智能体编排(MAS)变成了一组优雅的Markdown文件调用,让API账单和延迟同时暴跌了50%以上。

来自主题: AI技术研报
10726 点击    2026-01-13 09:09