AI资讯新闻榜单内容搜索-Mark

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Mark
AI模型价格下降1000倍,为什么我们支出的成本没有随之降低?

AI模型价格下降1000倍,为什么我们支出的成本没有随之降低?

AI模型价格下降1000倍,为什么我们支出的成本没有随之降低?

2025年12月12日,波士顿大学的 Andrey Fradkin 团队发布了一项令业界瞩目的研究 《The Emerging Market for Intelligence: Pricing, Supply, and Demand for LLMs》(智能的新兴市场:LLM的定价、供给与需求)。

来自主题: AI技术研报
7644 点击    2025-12-16 09:58
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
8108 点击    2025-11-28 09:28
NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

NeurIPS 2025|当AI学会"炒股":用千个虚拟投资者重现金融市场涌现现象

市场不是机器,而是人群;不是公式,而是故事。TwinMarket让AI学会讲述这些故事。 1994年,美国圣塔菲研究所(Santa Fe Institute)推出了一个野心勃勃的项目:人工股票市场(A

来自主题: AI技术研报
7488 点击    2025-11-16 10:40
Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Cursor 首度揭秘:"训练即产品",用强化学习让 AI 编程快 4 倍的秘密武器

Sasha Rush 在分享开头就提到,Cursor Composer 在他们的内部 benchmark 上的表现几乎与最好的 Frontier 模型(前沿模型)持平,并且优于去年夏天发布的所有模型。它的表现明显好于最好的开源模型,以及那些被标榜为"快速"的模型。

来自主题: AI技术研报
8286 点击    2025-11-11 11:12
他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

他发明了价值万亿的AGI,如今穷困潦倒

1997年首提AGI的马克·古布鲁德(Mark Gubrud),从地下室论文到被遗忘的命名者;而今AGI成巨头博弈与数千亿美元资本的关键开关,微软与OpenAI以其为合同枢纽与控制权杠杆,标准却愈发模糊。

来自主题: AI资讯
6888 点击    2025-11-05 09:56
Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

Cursor 联创宣布离职,公开声明仅写了 72 个单词

美国当地时间 10 月 29 日,据外媒消息,AI 编码工具 Cursor 背后的公司 Anysphere 的联合创始人 Arvid Lunnemark 已离职。Cursor 最初由四位联合创始人创立,除了 Lunnemark 之外,还有 Aman Sanger、Michael Truell 和 Sualeh Asif。

来自主题: AI资讯
7293 点击    2025-10-31 09:39
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 为填补这一空白,复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报
7299 点击    2025-10-23 16:22
AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

AI模型守法率提升11%,港科大首次用法案构建安全benchmark

香港科技大学KnowComp实验室提出基于《欧盟人工智能法案》和《GDPR》的LLM安全新范式,构建合规测试基准并训练出性能优异的推理模型,为大语言模型安全管理提供了新方向。

来自主题: AI技术研报
8807 点击    2025-10-23 12:20