AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
KAN一作刘子鸣回国任教,清华官网盖章认证了

KAN一作刘子鸣回国任教,清华官网盖章认证了

KAN一作刘子鸣回国任教,清华官网盖章认证了

爆火神经网络架构KAN一作,毕业新去向已获清华官网认证: 刘子鸣,拟于今年9月加入清华大学人工智能学院,任助理教授。

来自主题: AI技术研报
6109 点击    2026-01-13 11:07
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。

来自主题: AI技术研报
5579 点击    2026-01-13 10:20
Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

如果你在做 AI Agent 开发,大概率已经发现一件事: Agent 几乎是传统软件测试方法的反例。

来自主题: AI技术研报
9027 点击    2026-01-13 10:19
Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

在文章开始前,请您先打开Claude code,输入/skill,检查一下您的Claude code有多少个skills?是20个?50个?还是已经突破了100个?自从Anthropic推广Agent Skills以来,我们都爱上了这种“即插即用”的模块化体验。它把臃肿的多智能体编排(MAS)变成了一组优雅的Markdown文件调用,让API账单和延迟同时暴跌了50%以上。

来自主题: AI技术研报
9526 点击    2026-01-13 09:09
不会做RAG、agent的本地数据管理?都来学Claude Code!附深度拆解

不会做RAG、agent的本地数据管理?都来学Claude Code!附深度拆解

不会做RAG、agent的本地数据管理?都来学Claude Code!附深度拆解

企业级场景中,无论是做RAG还是agent,我们都会面临一个问题:出于数据隐私以及合规要求,数据必须保留在本地。但传统的本地存储方案往往存在数据隔离性差、崩溃易丢数据、配置管理混乱、操作不可撤销等问题。

来自主题: AI技术研报
8177 点击    2026-01-13 09:07
2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」

2026年,大模型训练的下半场属于「强化学习云」

2024 年底,硅谷和北京的茶水间里都在讨论同一个令人不安的话题:Scaling Law 似乎正在撞墙。

来自主题: AI技术研报
8254 点击    2026-01-12 15:13
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房

AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房

AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房

短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。

来自主题: AI技术研报
5196 点击    2026-01-12 14:08
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能 “用语言说清楚” 时,模型还能不能 “看懂”?

来自主题: AI技术研报
9217 点击    2026-01-12 14:07
Sakana让AI互相「猎杀」,而它们开始了趋同进化

Sakana让AI互相「猎杀」,而它们开始了趋同进化

Sakana让AI互相「猎杀」,而它们开始了趋同进化

想象一下,一群 AI 程序在一台虚拟计算机里相互猎杀,目标只有一个:生存。

来自主题: AI技术研报
10006 点击    2026-01-12 10:32
大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

来自主题: AI技术研报
8700 点击    2026-01-12 10:29
DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。作为具身通用智能的原型,SIMA 2已从静态数据集迈向无限程序化生成的训练场。

来自主题: AI技术研报
7393 点击    2026-01-12 10:00
挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

挑战GRPO,英伟达提出GDPO,专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报
7102 点击    2026-01-12 09:34
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报
6930 点击    2026-01-11 10:01
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。

来自主题: AI技术研报
8273 点击    2026-01-11 10:01
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统

哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布了一篇重磅综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》,首次打破认知神经科学与人工智能之间的学科壁垒,系统性地将人脑记忆机制与 Agents 记忆统一审视,

来自主题: AI技术研报
8756 点击    2026-01-11 10:00
一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

一年后,DeepSeek-R1的每token成本降到了原来的1/32

几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。

来自主题: AI技术研报
7267 点击    2026-01-10 17:02
杀死那篇PDF:一场由AI发起的学术出版大革命,正彻底终结传统论文

杀死那篇PDF:一场由AI发起的学术出版大革命,正彻底终结传统论文

杀死那篇PDF:一场由AI发起的学术出版大革命,正彻底终结传统论文

论文将汇总人类从出生到死亡每个神经元的活动情况。利用更完善的“分子记录带”(molecular ticker tape)技术,神经元每发出一个电脉冲,都会在其蛋白链上加上一段荧光分子。通过对这些蛋白链进行测序,可以获得神经元整个生命周期内神经活动的完整历史记录。同时对每个神经元的mRNA进行测序,可以确定它属于10.4万个神经元类型中的哪一种。

来自主题: AI技术研报
6911 点击    2026-01-10 17:00
AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

AAAI 2026 Oral | 大模型「爱你在心口难开」?深度隐藏认知让推理更可靠

近年来,大语言模型在算术、逻辑、多模态理解等任务上之所以取得显著进展,很大程度上依赖于思维链(CoT)技术。所谓 CoT,就是让模型在给出最终答案前,先生成一系列类似「解题步骤」的中间推理。 这种方式

来自主题: AI技术研报
5447 点击    2026-01-10 17:00
一文搞懂 Agents 评测丨Anthropic 最新万字长文

一文搞懂 Agents 评测丨Anthropic 最新万字长文

一文搞懂 Agents 评测丨Anthropic 最新万字长文

Agent 并不是一次性输出的系统。它们运行在多轮交互之中:调用工具、修改内部状态、根据中间结果不断调整策略。也正是这些让 Agent 变得有用的能力 ——自主性、智能性与灵活性 —— 同时也让它们变得更难以评估。

来自主题: AI技术研报
7381 点击    2026-01-10 10:36
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL

近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水

来自主题: AI技术研报
8075 点击    2026-01-10 10:16
让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

让世界模型推理效率提升70倍:上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

上海AI Lab联合多家机构开源的Yume1.5,针对这一核心难题提出了时空信道联合建模(TSCM),在长视频生成中实现了近似恒定计算成本的全局记忆访问。

来自主题: AI技术研报
6973 点击    2026-01-09 14:36
CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单:与其让LLM费力地去“读”数据的文本快照,不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学(HKUST)领衔的研究,为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报
8088 点击    2026-01-09 14:34
AI月产十亿行代码,暴增76%!程序员论坛炸锅:代码行数≠生产力!

AI月产十亿行代码,暴增76%!程序员论坛炸锅:代码行数≠生产力!

AI月产十亿行代码,暴增76%!程序员论坛炸锅:代码行数≠生产力!

想知道硅谷的程序员怎么使用AI编程,被2000家公司使用的AI代码审查智能体Greptile基于每月用AI审核的的十亿行代码,发布了AI编程年度报告,揭示了使用AI编程后带来的生产率提升,但对此程序员们却无法感同身受。

来自主题: AI技术研报
7624 点击    2026-01-09 11:47
Transformer已死?DeepMind正在押注另一条AGI路线

Transformer已死?DeepMind正在押注另一条AGI路线

Transformer已死?DeepMind正在押注另一条AGI路线

借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。

来自主题: AI技术研报
9316 点击    2026-01-09 11:24
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent,通过「思考 - 行动 - 观察 - 反思」闭环,实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报
6271 点击    2026-01-09 10:54
手把手教学NotebookLM生成细节可控,页数可控ppt

手把手教学NotebookLM生成细节可控,页数可控ppt

手把手教学NotebookLM生成细节可控,页数可控ppt

在上期内容发布后 有很多小伙伴都反馈很好用 NotebookLM改不了细节?提示词 V2.0 生成既有质感,又能随意修改文字的完美 PPT

来自主题: AI技术研报
7794 点击    2026-01-09 09:49