AI技术研报-这里有最前沿的人工智能技术解读

GPT-5惨遭零分打脸，顶级AI全军覆没！奥特曼AI博士级能力神话破灭

顶级大模型在AAI提出的FormulaOne基准集体翻车：三层难度递进，GPT-5进阶题仅约4%正确，最深层零分；Grok 4、o3 Pro全部失手。该基准以图上MSO逻辑与动态规划生成问题，贴近路径规划等现实优化，旨在衡量超越竞赛编程的算法推理深度。

来自主题: AI技术研报

7750 点击 2025-09-17 09:30

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

只要科学任务可以评分，AI就能找到超越人类专家的方法，实现SOTA结果？这是谷歌一篇最新论文里的内容：使用大模型+树搜索，让AI大海捞针就行。

来自主题: AI技术研报

8437 点击 2025-09-17 09:29

宇树：开源机器人世界大模型！

一觉醒来，宇树带着最新开源模型来了！这次开源的是一个世界模型-动作架构，名叫UnifoLM-WMA-0。它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律。

来自主题: AI技术研报

8349 点击 2025-09-16 16:07

7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途

ChatGPT首份使用报告重磅上线！周月活飙至7亿，它已成为高学历白领的办公利器，编程却成为冷门。同时，Anthropic最新报告称，人们交给Claude完成任务暴涨至49%。

来自主题: AI技术研报

8386 点击 2025-09-16 15:37

谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长

很多人认为，Scaling Law 正在面临收益递减，因此继续扩大计算规模训练模型的做法正在被质疑。最近的观察给出了不一样的结论。研究发现，哪怕模型在「单步任务」上的准确率提升越来越慢，这些小小的进步叠加起来，也能让模型完成的任务长度实现「指数级增长」，而这一点可能在现实中更有经济价值。

来自主题: AI技术研报

7217 点击 2025-09-16 15:15

每周7亿人都在如何用ChatGPT？OpenAI最全报告来了

首份最全ChatGPT用户研究报告来了！

来自主题: AI技术研报

8932 点击 2025-09-16 12:23

刚刚，OpenAI发布GPT-5-Codex：可独立工作超7小时，还能审查、重构大型项目

凌晨 1 点，OpenAI 发布了 GPT-5-Codex。

来自主题: AI技术研报

9491 点击 2025-09-16 12:17

刚刚！阿里发新模型，幻觉率爆降70%

智东西9月15日报道，今天，阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块，针对性优化了“幻觉”、“串语种”等关键问题，在高噪声的场景下，幻觉率从78.5%下降至10.7%，下降幅度接近70%。

来自主题: AI技术研报

9179 点击 2025-09-16 11:23

从「对口型」到「会表演」，刚进化的可灵AI数字人，技术公开了

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的，是当明快的旋律响起，它会自然扬起嘴角，眼神含笑；当进入说唱段落，它会随着鼓点起伏，肩膀与手臂有节奏地带动气氛。

来自主题: AI技术研报

11929 点击 2025-09-16 11:14

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

生成式AI的快与好，终于能兼得了？

来自主题: AI技术研报

8829 点击 2025-09-16 10:43

想让LLM精确输出？试下XML格式Prompt语法约束解码GCD，帮你迭代收敛到稳定解

随着Agent的爆发，大型语言模型（LLM）的应用不再局限于生成日常对话，而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动化任务至关重要。

来自主题: AI技术研报

7773 点击 2025-09-16 10:19

DeepMind哈萨比斯最新认知都在这里了

Nano Banana如此火爆，让谷歌DeepMind CEO哈萨比斯在最新访谈中又一次聊起了AGI。Nano Banana当然不是AGI，但它也体现了哈萨比斯认为AGI系统所需的一些关键能力和特征。

来自主题: AI技术研报

9922 点击 2025-09-16 10:04

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报

9283 点击 2025-09-16 10:02

多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而，如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近，随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报

7765 点击 2025-09-16 10:01

AI解数学题只靠最后一个token

最近，来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现：在心算任务中，几乎所有实际的数学计算都集中在序列的最后一个token上完成，而不是分散在所有token中。

来自主题: AI技术研报

8139 点击 2025-09-16 10:00

告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架

为应对这些挑战，来自华为诺亚方舟实验室，德国达姆施塔特工业大学，英国伦敦大学学院，帝国理工学院和牛津大学的研究者们联合推出了 Ark —— 一个基于 Python 的机器人开发框架，支持快速原型构建，并可便捷地在仿真和真实机器人系统上部署新算法。

来自主题: AI技术研报

8404 点击 2025-09-16 09:59

OpenVision 2：大道至简的生成式预训练视觉编码器

本文来自加州大学圣克鲁兹分校（UCSC）、苹果公司（Apple）与加州大学伯克利分校（UCB）的合作研究。第一作者刘彦青，本科毕业于浙江大学，现为UCSC博士生，研究方向包括多模态理解、视觉-语言预训

来自主题: AI技术研报

6141 点击 2025-09-16 09:37

刚刚，Anthropic 公布了99%的人不知道的 Claude使用真相

就在刚刚，Anthropic 发布了一报告，名字听上去有点学术腔——《人类经济指数》。但别被这个名字骗了，它是一份非常具体、非常当下的观察笔记，可以说和我们息息相关。原文链接：https://ww

来自主题: AI技术研报

9953 点击 2025-09-15 23:12

腾讯混元升级AI绘画微调范式，在整个扩散轨迹上优化，人工评估分数提升300%

让AI生成的图像更符合人类精细偏好，在32块H20上训练10分钟就能收敛。腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。

来自主题: AI技术研报

8338 点击 2025-09-15 15:51

用光学生成图像，几乎0耗电，浙大校友一作研究登Nature

见过省电的模型，但这么省电的，还是第一次见。在《自然》杂志发表的一篇论文中，加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。

来自主题: AI技术研报

8606 点击 2025-09-15 15:47

a16z实测报告：哪些AI办公产品真的能帮你干活？

今天咱们来聊一下，哪些AI办公产品真的能帮你干活？

来自主题: AI技术研报

10491 点击 2025-09-15 10:54

研究人员打造带有AI同行评审的预印本平台，有望革新现有科学出版方式

在讨论 AGI 或者通用机器人定义时，人们往往会自然联想到一些直观的衡量标准，比如 AI 能否解出高考题、在国际数学奥林匹克（IMO，International Mathematical Olympiad）上获得金牌，或者机器人能否胜任家务。

来自主题: AI技术研报

7673 点击 2025-09-15 10:26

LLaSO 横空出世：逻辑智能推出全球首个完全开源语音大模型框架，定义 LSLM 研究新基准

北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。

来自主题: AI技术研报

7915 点击 2025-09-15 08:39

谢菲尔德大学：模型幻觉的数学必然性

幻觉不是 bug，是数学上的宿命。谢菲尔德大学的最新研究证明，大语言模型的幻觉问题在数学上不可避免—— 即使用完美的训练数据也无法根除。而更为扎心的是，OpenAI 提出的置信度阈值方案虽能减少幻

来自主题: AI技术研报

9841 点击 2025-09-15 08:34

将KV Cache预算降至1.5%！他们用进化算法把大模型内存占用砍下来了

只用 1.5% 的内存预算，性能就能超越使用完整 KV cache 的模型，这意味着大语言模型的推理成本可以大幅降低。EvolKV 的这一突破为实际部署中的内存优化提供了全新思路。

来自主题: AI技术研报

7699 点击 2025-09-15 08:33

扩散语言模型有MoE版了！蚂蚁&人大从头训练LLaDA-MoE，将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑：蚂蚁集团和人大联合团队用 20T 数据，从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B，但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B，而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报

9154 点击 2025-09-15 08:30

为这一个Tab键，我愿意单独付费：Cursor用在线强化学习优化代码建议，护城河有了？

Cursor Tab 是 Cursor 的核心功能之一，它通过分析开发者的编码行为，智能预测并推荐后续代码，开发者仅需按下 Tab 键即可采纳。然而，它也面临着一个 AI 普遍存在的难题：「过度热情」。有时，它提出的建议不仅毫无用处，甚至会打断开发者的思路。

来自主题: AI技术研报

9167 点击 2025-09-14 21:34

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

本周五，Meta AI 团队正式发布了 MobileLLM-R1。这是 MobileLLM 的全新高效推理模型系列，包含两类模型：基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

来自主题: AI技术研报

9166 点击 2025-09-14 11:16

腾讯优图重磅开源Youtu-GraphRAG，实现图检索增强技术新突破

图检索增强生成（GraphRAG）已成为大模型解决复杂领域知识问答的重要解决方案之一。然而，当前学界和开源界的方案都面临着三大关键痛点：开销巨大：通过 LLM 构建图谱及社区，Token 消耗大，耗

来自主题: AI技术研报

9376 点击 2025-09-14 10:45

藏师傅教你用 Lovart x Seedream4.0 搞定终极自媒体神器

Lovart（lovart.ai/）速度是真的快，前几天发现他们第一时间就上线了 Seedream 4.0 模型，而且在前天开启了超级优惠活动： 9.10-9.20 Nano Banana 和 Seedream 4.0 模型免费用不扣积分

来自主题: AI技术研报

10831 点击 2025-09-13 16:45