AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

基于此,研究者在 89 个参数量已知的开源模型(规模从 1.35 亿到 1.6 万亿参数)上拟合出事实准确率与参数量的对数线性关系,拟合优度 R² = 0.917,并据此对闭源模型进行参数估算。

来自主题: AI技术研报
8643 点击    2026-05-01 13:13
腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

腾讯混元CL-bench续作发布,让大模型读懂你的日常生活

在 AGI-Next 前沿峰会上,腾讯姚顺雨举了一个很生活化的例子:当你问 AI “今天吃什么” 时,真正限制答案质量的,可能不是模型不够大,也不是推理不够强,而是它不知道你今天冷不冷、想不想吃热的、最近和朋友聊过什么、家人又有什么偏好需要纳入考虑。

来自主题: AI技术研报
6800 点击    2026-05-01 13:12
「生物信息学」评测,Claude 反超人类专家

「生物信息学」评测,Claude 反超人类专家

「生物信息学」评测,Claude 反超人类专家

今天 Anthropic 放出了一项评估数据,对于新的生物信息学评测集 BioMysteryBench:人类能搞定的,Claude 也能搞定;在人类搞不定的,Mythos 也能搞定

来自主题: AI技术研报
8557 点击    2026-05-01 11:08
AI 购物,从万能的淘宝相机开始

AI 购物,从万能的淘宝相机开始

AI 购物,从万能的淘宝相机开始

《DT商业观察》留意到,即便是电商常见的“图搜找同款”场景,自从淘宝图像搜索产品@拍立淘新上线了“AI模式”,把“图搜”功能进化成“启发式图搜”,用户的玩法也已升级。

来自主题: AI技术研报
7934 点击    2026-05-01 11:06
终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用

基于视觉语言模型(VLM)的多智能体系统(MAS)正成为复杂多模态协作的核心方案,却被一个致命痛点死死卡住:多智能体视觉幻觉滚雪球——单个智能体的视觉误判通过纯文本信息流逐级放大,早期细微错误最终演变成系统性崩溃。

来自主题: AI技术研报
7170 点击    2026-05-01 10:46
刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek多模态技术范式公布,以视觉原语思考

刚刚,DeepSeek 在 Github 上正式发布了多模态模型,公布了背后的技术报告。实打实的新鲜出炉!而且是开创性的推理范式。下面我们就基于 DeepSeek 这篇技术报告,具体看看 DeepSeek、北京大学、清华大学又创造了怎样的奇迹。

来自主题: AI技术研报
8882 点击    2026-04-30 20:24
大模型“降智”真相,找到了

大模型“降智”真相,找到了

大模型“降智”真相,找到了

今天,智谱发布了一篇名为《Scaling Pain:超大规模Coding Agent推理实践》的技术报告,披露了GLM-5系列模型在Coding Agent场景下遇到的推理基础设施挑战与对应解法。

来自主题: AI技术研报
9208 点击    2026-04-30 13:52
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式

智元机器人的办公室里,最近员工们一上班就能看到机器人熟练地切着水果:这么全面的能力是如何做到的?答案是直接在真实环境中搞大规模分布式强化学习训练。它们使用的是全新的具身智能训练范式:面向通用机器人策略的分布式多机强化学习(LWD)。这一套技术捅破了当前VLA的「天花板」。

来自主题: AI技术研报
6268 点击    2026-04-30 13:52
2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

2025 年我国用于人工智能训练和推理的数据总量达 199.48EB,同比增长 42.86%

据央视新闻报道,今天,《全国数据资源调查报告(2025 年)》在第九届数字中国建设峰会上发布。报告显示,2025 年,全国数据生产总量同比增长 27.28%,达到 52.26ZB(ZettaByte,泽字节 | 1ZB=1024EB),这相当于全国所有算力中心存储容量的近 30 倍。从国际来看,我国数据生产总量占全球的 27.44%。

来自主题: AI技术研报
8421 点击    2026-04-30 12:50
ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

ACL 2026|答得更准还写得更短?华为泰勒实验室提出SHAPE,给LLM推理装了个「推理税」

来自华为泰勒实验室、北京大学和上海财经大学的研究团队提出了 SHAPE(Stage-aware Hierarchical Advantage via Potential Estimation),给推理链装上了一套「里程碑 + 推理税」机制——不仅告诉模型每一步推得对不对,还让它为啰嗦付出代价。结果是:准确率平均提升 3%,token 消耗直降 30%。

来自主题: AI技术研报
7719 点击    2026-04-30 12:12
ACL 2026|Doc-V*:读100页文档不如只翻对5页,80页场景「暴打」RAG 10个点

ACL 2026|Doc-V*:读100页文档不如只翻对5页,80页场景「暴打」RAG 10个点

ACL 2026|Doc-V*:读100页文档不如只翻对5页,80页场景「暴打」RAG 10个点

Doc-V* 由小米大模型 Plus 团队和华中科技大学 VLRLab 团队合作提出,一种从「静态阅读」到「主动探索」的多页文档理解新范式,通过交互式视觉推理让模型像人一样有策略地阅读长文档。

来自主题: AI技术研报
8289 点击    2026-04-30 09:00
10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道

普林斯顿大学助理教授刘壮,在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。架构真的重要吗?数据集真的足够多样吗?归一化层是必需的吗?大语言模型有世界模型吗?AI智能体能替代博士生吗?

来自主题: AI技术研报
8464 点击    2026-04-30 08:39
2026,Agent死于上下文失焦(附7大Claude Code 记忆遗忘与管理工具)

2026,Agent死于上下文失焦(附7大Claude Code 记忆遗忘与管理工具)

2026,Agent死于上下文失焦(附7大Claude Code 记忆遗忘与管理工具)

搭了个agent,结果该被记住的历史交互经验一点没记住,不该被记住的工具调用结果、过程输出被一股脑塞进上下文,导致输出质量下滑,类似的上下文失焦问题,这是多少人做agent时候的噩梦?

来自主题: AI技术研报
7273 点击    2026-04-30 08:35
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA

伦敦大学学院(UCL)、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web,让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构(如 iframe、Shadow DOM)时,往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。

来自主题: AI技术研报
7973 点击    2026-04-30 08:32
成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋

成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋

成功率最高暴跌36.9%!南洋理工首个“模糊指令”测试,直击具身智能落地软肋

在语言学中,人类之所以能听懂“那个东西”、“它”、“这个重物”,依赖于桥接推理理论 (bridging inference),即通过上下文信息在已有记忆与当前表达之间建立联系,从而恢复指代对象。

来自主题: AI技术研报
6082 点击    2026-04-29 09:55
ICLR 2026 Oral | 没人诱导,大模型也会「骗人」

ICLR 2026 Oral | 没人诱导,大模型也会「骗人」

ICLR 2026 Oral | 没人诱导,大模型也会「骗人」

新加坡国立大学 Bingsheng He 教授团队一篇最新入选 ICLR 2026 Oral 的论文,把视角放在了一个更贴近日常使用场景的问题上:人们更熟悉的,是用户故意诱导模型说假话的情形;而这篇工作真正追问的是,在没有刻意诱导、只是正常提问的情况下,模型会不会也出现某种 “表面这样答,实际那样想” 的现象。

来自主题: AI技术研报
6452 点击    2026-04-29 09:48
LangFlow: 挑战离散扩散,探索下一代语言模型新范式

LangFlow: 挑战离散扩散,探索下一代语言模型新范式

LangFlow: 挑战离散扩散,探索下一代语言模型新范式

主要作者团队:Yuxin Chen 现为伊利诺伊大学厄巴纳 - 香槟分校(UIUC)硕士一年级学生,Chumeng Liang 为 UIUC 博士一年级学生,Hangke Sui 为 UIUC 博士二年级学生,Ge Liu 为 UIUC 计算机系助理教授。Liu Lab 团队长期聚焦扩散 / 流模型方向,

来自主题: AI技术研报
6720 点击    2026-04-29 09:36
ACL 2026 | LCA:DeepSeek 长文本加速神器,90% KV 缓存缩减 + 2.5 倍推理提速

ACL 2026 | LCA:DeepSeek 长文本加速神器,90% KV 缓存缩减 + 2.5 倍推理提速

ACL 2026 | LCA:DeepSeek 长文本加速神器,90% KV 缓存缩减 + 2.5 倍推理提速

近日,琶洲实验室、华南理工大学、蔻町(AIGCode)等单位科研团队联合提出潜在空间压缩注意力(Latent-Condensed Attention,LCA),研究成果入选 ACL 2026。

来自主题: AI技术研报
7974 点击    2026-04-29 09:35
流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实

流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实

流式意图检测+永久记忆,NUS&NTU发布Pask:把贾维斯AI拉进现实

让AI像助手一样主动帮助,才是我们心中AGI的样子。主动智能体的概念已经被多次提出,但都很难做到可以真正在生活中落地。现有的工作都还停留在概念层面,无法解决复杂世界中所要求的实时性、深度、和记忆等问题。 南洋理工大学谢之非团队提出Pask,使用「底层小模型流式意图检测」+ 「上层Agents执行」架构,实现首个能够做到实时、有深度、基于个人全局记忆自进化的主动智能体。

来自主题: AI技术研报
7369 点击    2026-04-28 15:08
MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070即可实时运行

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070即可实时运行

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070即可实时运行

你有没有想过,不用联网、仅用一张消费级显卡,就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手?这就是 MiniCPM-o 4.5 所能做到的。在技术创新下,它仅凭 9B 参数,实现了业界首个端到端全双工全模态大模型,让端侧 AI 普惠成为现实。其自 2026 年 2 月模型发布以来,在 Hugging Face 上的下载量已突破 25 万+。

来自主题: AI技术研报
6657 点击    2026-04-28 13:15
美团面试官:为什么有时候选择「手搓」Agent,而不是直接用成熟框架?

美团面试官:为什么有时候选择「手搓」Agent,而不是直接用成熟框架?

美团面试官:为什么有时候选择「手搓」Agent,而不是直接用成熟框架?

我的感受是框架用起来快,但有几个实际痛点。第一是抽象层太多,调试的时候不知道哪步出了问题,得一层层往下扒;第二是版本升级经常有破坏性变更,线上稳定性难保证;第三是框架的通用设计往往和具体业务需求有偏差,定制起来反而更费劲。手搓的代码完全在自己掌控之内,可观测性好、出问题好排查,也更方便做性能优化。所以我现在的策略是核心逻辑手写,只在边缘功能上用框架的工具。

来自主题: AI技术研报
6192 点击    2026-04-28 13:14
不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

MoE模型的稀疏激活本是优势,却常陷通信瓶颈。NVIDIA以软件为利剑,通过程序化依赖启动和全对全通信革新,在三个月内将GB200的单GPU吞吐提升2.8倍,真正释放Blackwell硬件潜力。

来自主题: AI技术研报
8923 点击    2026-04-28 10:09
AI「看不懂」、「做不好」视频的问题,混元用「MTSS」解决了

AI「看不懂」、「做不好」视频的问题,混元用「MTSS」解决了

AI「看不懂」、「做不好」视频的问题,混元用「MTSS」解决了

腾讯混元团队提出了 Multi-Stream Scene Script(MTSS),一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本",通过 Stream Factorization 和 Relational Grounding 两大核心原则,让视频描述既忠实又可扩展,在视频理解和生成任务中均取得显著提升。

来自主题: AI技术研报
6401 点击    2026-04-28 09:57
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发

Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。

来自主题: AI技术研报
8128 点击    2026-04-27 15:18
终于,学界找到了深度学习的「牛顿定律」

终于,学界找到了深度学习的「牛顿定律」

终于,学界找到了深度学习的「牛顿定律」

最近,由来自 UC Berkeley、哈佛、斯坦福等名校的 14 名研究者组成的研究团队发表了一篇论文,系统性地梳理了过去十年间散落在各处的理论碎片,并将它们拼成了一幅完整的图景。他们给这个正在形成的理论体系起了一个名字 ——Learning Mechanics(学习力学)。

来自主题: AI技术研报
7820 点击    2026-04-27 10:00
ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

ACL 2026 | 别轻易给AI发「~」,它可能会删掉你的整个主目录

本文第一作者降伟鹏,西安交通大学在读博士生,主要研究方向为大模型安全与自动化测评。共同第一作者张笑宇,南洋理工大学博士后研究员,研究方向为软件工程、大模型安全与人机交互。通讯作者沈超,西安交通大学二级

来自主题: AI技术研报
5463 点击    2026-04-27 09:55
大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

大模型高效推理新答案:ICLR 2026提出Balanced Thinking,精度提升10.0的同时,推理长度直降35.4%

哈尔滨工业大学(深圳)等机构的研究者提出了 ReBalance 方法,并首次系统性引入 Balanced Thinking 这一新视角。该工作的核心观点明确:高效推理的关键并非盲目压缩推理长度,而是在过度思考与思考不足之间维持动态平衡。

来自主题: AI技术研报
7574 点击    2026-04-27 09:53
苹果新论文发出惊人一问:What do your logits know?

苹果新论文发出惊人一问:What do your logits know?

苹果新论文发出惊人一问:What do your logits know?

苹果近年来在 AI 底层技术层面的投入正在不断加码。恰在此时,苹果 AI 研究团队提交了一篇极具探讨价值的论文《你的 logits 知道些什么?(答案可能会让你惊讶!)》

来自主题: AI技术研报
9174 点击    2026-04-27 09:47
Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill也有语言虚拟机了!上交大开源SkVM,实现一次编写,处处高效

Skill确实好用,但架不住模型和Agent Harness适配翻车。不是所有模型都吃得动Skill,有的用上直接反向掉性能。为了解决这个问题,来自上海交大的IPADS研究团队提出了SkVM:面向Skill的语言虚拟机。

来自主题: AI技术研报
8627 点击    2026-04-26 14:23
Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI万人调研:老板不订阅,AI就是摆设!

Epoch AI最新调研:一半美国成年人上周用过AI,但真正的分水岭不是技术——是谁在付钱。公司掏钱的那一刻,AI工作使用率从38%直接飙到76%。

来自主题: AI技术研报
7673 点击    2026-04-26 14:07