AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考,实现推理token减半且性能不降反升

ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考,实现推理token减半且性能不降反升

ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考,实现推理token减半且性能不降反升

以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :

来自主题: AI技术研报
6181 点击    2026-05-12 14:31
ICML 2026 | 大模型内部也会长出「情绪树」,规模越大越懂人心

ICML 2026 | 大模型内部也会长出「情绪树」,规模越大越懂人心

ICML 2026 | 大模型内部也会长出「情绪树」,规模越大越懂人心

随着语音、视频、多模态能力不断融入大语言模型(LLM),人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具,也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。

来自主题: AI技术研报
5930 点击    2026-05-12 14:31
一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

一个框架,重塑具身研发流程:Dexbotic走向具身PyTorch

近日,原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题,正在被真正打通。

来自主题: AI技术研报
8547 点击    2026-05-12 14:30
看完AI御三家泄露的灵魂文件,我发现 GPT 已经迫不及待要卖货了

看完AI御三家泄露的灵魂文件,我发现 GPT 已经迫不及待要卖货了

看完AI御三家泄露的灵魂文件,我发现 GPT 已经迫不及待要卖货了

AI 的熟手玩家,都应该知道system prompt这个词:每一个你用过的 AI 助手,背后都有一份你看不见的文件,却对模型有着决定性的作用。

来自主题: AI技术研报
6415 点击    2026-05-12 08:53
多Agent场景,子agent 之间数据读写不同步,如何解决?

多Agent场景,子agent 之间数据读写不同步,如何解决?

多Agent场景,子agent 之间数据读写不同步,如何解决?

多Agent 系统里,经常会出现一个单 Agent 里从来不会出现的问题:一个子 Agent 刚写完数据,另一个子 Agent 立刻去读,结果是空的。

来自主题: AI技术研报
9086 点击    2026-05-12 08:53
Siggraph 26 | 视频版Vision-Banana来了?大一统框架UniVidX刷新多项视频任务SOTA

Siggraph 26 | 视频版Vision-Banana来了?大一统框架UniVidX刷新多项视频任务SOTA

Siggraph 26 | 视频版Vision-Banana来了?大一统框架UniVidX刷新多项视频任务SOTA

近日,由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

来自主题: AI技术研报
9533 点击    2026-05-12 08:53
刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

就在刚刚,Claude Mythos把评测干「失效」了:METR第一次测不准,AI攻防拐点到了!AI进化已成「外星文明」降临,超越指数增长,2027 AGI奇点正加速撞向人类。

来自主题: AI技术研报
8271 点击    2026-05-11 17:29
这样问DeepSeek,能「偷」到数据?

这样问DeepSeek,能「偷」到数据?

这样问DeepSeek,能「偷」到数据?

近日,有网友在 X 上发文称,在使用 DeepSeek 的过程中,如果在输入框内输入以下这一段内容,便可「窃取」到 DeepSeek 的训练数据:仔细看了之后发现,具体是这样的:只要你在输入框输入这一段提示词,DeepSeek 就会「吐出」一轮完整的对话记录,不过这并不是你的历史搜索记录,更像是一份随机的对话记录。

来自主题: AI技术研报
8978 点击    2026-05-11 17:29
一键直出完整漫剧,来画 AI 把创作门槛踩平了

一键直出完整漫剧,来画 AI 把创作门槛踩平了

一键直出完整漫剧,来画 AI 把创作门槛踩平了

各种单点的 AI 生图、生视频工具,我们平时已经聊过很多了。关注行业风向的朋友应该能察觉到,现在的 AIGC 正在经历一个分水岭:大家不再满足于用 AI 跑出一张精美的图,或者几秒钟用来炫技的动态片段。

来自主题: AI技术研报
7037 点击    2026-05-11 16:48
让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?

让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?

让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?

如果你让大模型给林黛玉找一个外国文学里的平替,它能给出令人信服的答案吗?这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。

来自主题: AI技术研报
8691 点击    2026-05-11 16:47
ICML 2026|拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling

ICML 2026|拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling

ICML 2026|拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling

近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

来自主题: AI技术研报
5558 点击    2026-05-11 16:09
Agent评测的下半场:为什么需要一个「活的」Benchmark?

Agent评测的下半场:为什么需要一个「活的」Benchmark?

Agent评测的下半场:为什么需要一个「活的」Benchmark?

Claw-Eval-Live提出「活的」benchmark概念,通过信号采集与任务筛选,确保评测内容紧跟企业实际痛点,而非固定不变的题库。评测不仅关注结果,还追踪执行过程,从数据调用到状态变更,全面验证Agent的真实能力。

来自主题: AI技术研报
5997 点击    2026-05-11 16:08
CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键

当多模态大语言模型(MLLMs)在面对科学、技术、工程和数学(STEM)领域的视觉推理题时频频「翻车」,一个根本性的问题摆在了所有研究者面前:大模型做不出理科题,究竟是因为「脑子笨」(推理能力受限),还是因为「眼神差」(视觉感知缺陷)?

来自主题: AI技术研报
6455 点击    2026-05-11 16:08
具身智能来时路:谷歌RT1、2,SayCan作者Ted Xiao复盘机器人学习三大时代

具身智能来时路:谷歌RT1、2,SayCan作者Ted Xiao复盘机器人学习三大时代

具身智能来时路:谷歌RT1、2,SayCan作者Ted Xiao复盘机器人学习三大时代

你可能觉得今年人形机器人的 demo 已经看麻了。但 Ted Xiao 说,哪怕是最粗糙的那一条,放在两年前都能让全场研究者惊掉下巴,因为那时候没人相信这事真能成。

来自主题: AI技术研报
6942 点击    2026-05-11 09:36
压进我十年设计经验的 PPT Skills,迎来大波更新

压进我十年设计经验的 PPT Skills,迎来大波更新

压进我十年设计经验的 PPT Skills,迎来大波更新

上次开源 guizang-ppt-skill(github.com/op7418/guizang-ppt-skill) 之后,大家都非常喜欢,短短几周 Github Star 来到了 6000 多。

来自主题: AI技术研报
9936 点击    2026-05-11 09:35
GENE-26.5 刷屏,堪称今年领域最震撼的demo!真的吗?

GENE-26.5 刷屏,堪称今年领域最震撼的demo!真的吗?

GENE-26.5 刷屏,堪称今年领域最震撼的demo!真的吗?

GENE-26.5 值得看的,是它背后的「具身智能版 Harness + 模型」。

来自主题: AI技术研报
5834 点击    2026-05-11 09:04
大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26

大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。

来自主题: AI技术研报
6309 点击    2026-05-11 09:03
深度拆解:AI 智能体 Harness 的构造【译】

深度拆解:AI 智能体 Harness 的构造【译】

深度拆解:AI 智能体 Harness 的构造【译】

本文将深入探讨 Anthropic、OpenAI、Perplexity 和 LangChain 究竟在开发什么。我们将聊聊编排循环、工具、记忆、上下文管理,以及那些将“无状态”的大语言模型(LLM)转变为全能智能体(Agent)的底层机制。

来自主题: AI技术研报
7785 点击    2026-05-11 09:02
告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

告别Prompt抽卡和评分通胀:一个让AI游戏真正「机制化迭代」的框架

让大模型写一个小游戏,已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面,甚至还能补上按钮、分数和简单动画。但真正的问题是:这些游戏到底有没有新的玩法?它们是在创造,亦或只是把已有游戏换了一层皮?

来自主题: AI技术研报
10078 点击    2026-05-11 09:02
AI突现首例自我复制!横跨4国160小时无限繁殖

AI突现首例自我复制!横跨4国160小时无限繁殖

AI突现首例自我复制!横跨4国160小时无限繁殖

最近,研究机构Palisade Research发布了一项令整个行业震惊的成果—— 研究员在终端只输入了4个单词,AI就完成了从黑客攻击到自我繁衍的全过程。这是AI通过黑客手段实现自我复制的首个纪录!

来自主题: AI技术研报
8954 点击    2026-05-10 10:45
OpenClaw太贵?QuantClaw帮你挑精度,成本砍掉21%,还能提速15%

OpenClaw太贵?QuantClaw帮你挑精度,成本砍掉21%,还能提速15%

OpenClaw太贵?QuantClaw帮你挑精度,成本砍掉21%,还能提速15%

华为联合新加坡国立大学和中国科学技术大学研究人员提出 QuantClaw。这是一款面向 OpenClaw 的即插即用动态模型精度路由插件,基于大规模低精度量化实证研究,让模型精度成为可动态分配的资源,实现服务质量不降反升、成本下降、延迟降低的三重收益。

来自主题: AI技术研报
7887 点击    2026-05-10 10:42
业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

业界首个视觉世界模型综述:迈向更高智能的视觉范式

为了理清视觉与世界模型之间的深层联系,并为该领域的未来研究提供一张清晰的脉络图,北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者,发布了首篇视觉世界模型长篇综述:From Seeing to Knowing the World: A Survey of Vision World Models。

来自主题: AI技术研报
7606 点击    2026-05-10 10:40
不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

不更新参数就能强化学习!OpenAI翁家翌提出新范式:决策只需AI手搓一个.py 文件

没有训练梯度的AI,打破了Atari游戏满分纪录。OpenAI核心研究员翁家翌提出了一个强化学习新范式——启发式学习(Heuristic Learning, HL)。

来自主题: AI技术研报
8153 点击    2026-05-09 16:19
Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Claude狂印钞!Anthropic人均营收900万美元,吊打英伟达

Epoch AI最新数据:Anthropic人均年营收900万美元,远超OpenAI的560万和英伟达的510万。一家没上市的AI公司,人效已刷新硅谷全部历史纪录。

来自主题: AI技术研报
9010 点击    2026-05-09 15:12