AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
比全球最强推理引擎还快2倍,斯坦福、普林斯顿破解大模型「串行魔咒」

比全球最强推理引擎还快2倍,斯坦福、普林斯顿破解大模型「串行魔咒」

比全球最强推理引擎还快2倍,斯坦福、普林斯顿破解大模型「串行魔咒」

在大语言模型推理领域,虽然「推测解码」(Speculative Decoding,SD)已成为加速生成的标准配置,但它依然存在一个致命弱点: drafting(草拟)和 verification(验证)之间必须串行进行。

来自主题: AI技术研报
7495 点击    2026-04-01 16:20
ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报
7706 点击    2026-04-01 16:13
Claude Code 源码泄漏,全部细节与始末

Claude Code 源码泄漏,全部细节与始末

Claude Code 源码泄漏,全部细节与始末

2026 年 3 月 31 日,安全研究员 Chaofan Shou 发现 Anthropic 的 Claude Code 全部源码通过 npm 包里的一个 source map 文件暴露在了公网上

来自主题: AI技术研报
10139 点击    2026-04-01 10:50
NVIDIA GTC上登顶的DeepResearch Bench,到底在评什么?

NVIDIA GTC上登顶的DeepResearch Bench,到底在评什么?

NVIDIA GTC上登顶的DeepResearch Bench,到底在评什么?

3 月 16 日,在刚刚结束的 NVIDIA GTC 2026 大会上,黄仁勋在长达三小时的 Keynote 演讲中发布了 NVIDIA Agent Toolkit 和 AI-Q 开放智能体蓝图,将 AI Agent 定位为下一个重大前沿。

来自主题: AI技术研报
8421 点击    2026-04-01 09:39
你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

你的「龙虾」还好用吗?人大林衍凯教授:OpenClaw就像早期Linux,真正的竞争才刚开始

过去数月,AI 领域很难绕开一个名字 ——OpenClaw。这个项目在极短时间内获得了爆发式关注:数十万星标、惊人的 Token 消耗,以及几乎所有大厂的快速跟进。从表面上看,它像是又一个现象级 AI 产品;但如果进一步审视,一个更值得思考的问题随之浮现 ——OpenClaw 的出现,究竟意味着什么?它真的是一次技术突破,还是某种更深层变化的信号?

来自主题: AI技术研报
5414 点击    2026-03-31 14:40
1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

1毫秒级,最快的人体动作捕捉服!开源715万帧数据集| CVPR'26

全球首个1毫秒级人体动作捕捉系统FlashCap,通过闪烁LED与事件相机结合,实现1000Hz超高帧率捕捉。无需昂贵设备或强光环境,低成本穿戴服即可精准捕捉极速动作。团队同步开源715万帧的FlashMotion数据集与多模态模型ResPose,显著提升运动分析精度,推动体育、VR与机器人领域迈向高动态智能新阶段。

来自主题: AI技术研报
6302 点击    2026-03-31 14:40
直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

直指具身智能核心瓶颈,千寻智能高阳团队提出 Point-VLA:首次以视觉定位实现语言指令精准执行

设想这样一个场景:你打电话让同事去办公室某个地方拿东西,仅凭语言描述位置是多么困难。在办公室里,从一堆已经喝过的矿泉水瓶中,让对面同学递过来你之前喝过的那个,只用语言几乎无法准确描述——「左边第二个」?「有点旧的那个」?这时候,人们更倾向于用手指一下,或者拿出图片来指代。

来自主题: AI技术研报
7198 点击    2026-03-31 14:37
Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Nicholas Carlini:当 AI 比所有人都更擅长找漏洞,安全行业还剩几个月?

Anthropic 研究科学家 Nicholas Carlini 在 [un]prompted 2026 安全会议上用不到 25 分钟演示了一件事:语言模型现在可以自主找到并利用零日漏洞,目标包括 Linux 内核这种被人类安全专家审计了几十年的软件。

来自主题: AI技术研报
9870 点击    2026-03-31 14:06
搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

搞懂“记忆”必看|吃透Engram,坐等Deepseek新模型

第一篇论文来自字节SEED团队, 打了一些基础; 《Over-Tokenized Transformer》。 论文标题看上去在讨论“过度分词”。 而重点必然是在第二篇上—— DeepSeek公司的学术成果Engram。 《Conditional Memory via Scalable Lookup》 也就是Engram模块所出处的论文。

来自主题: AI技术研报
9722 点击    2026-03-31 10:30
全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

全球OCR新王来自中国开源!GitHub狂揽73300+Star

GitHub OCR项目之王刚刚历史性易主。

来自主题: AI技术研报
6345 点击    2026-03-31 10:29
早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

早于DeepSeek Engram!用「查表」重置Transformer记忆 | ICLR

ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用token索引的embedding表直接读取记忆,彻底解耦记忆容量与计算开销。

来自主题: AI技术研报
8071 点击    2026-03-31 10:04
大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

大部分人都没有的习惯,斯坦福最新报告证实:点踩对AI来说其实很重要!

您在使用LLM时,如果遇到它胡说八道或者彻底偏题,第一反应是什么?大概率是直接关掉窗口,新开一个对话,懒得跟机器废话。但您可能不知道,这个看似再正常不过的习惯,正在给下一代大语言模型的训练库疯狂“投毒”。

来自主题: AI技术研报
8442 点击    2026-03-31 10:03
ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

在生成式 AI 领域,视觉分词器(Visual Tokenizer)通常采用固定压缩率 —— 无论是单调的监控画面,还是复杂的动作大片,都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余,也产生了 “信息量” 不同的 Token,不利于下游理解生成任务处理。

来自主题: AI技术研报
5464 点击    2026-03-31 10:03
中国巨头的AI商业图谱

中国巨头的AI商业图谱

中国巨头的AI商业图谱

大模型的狂热已然退潮。当我们将目光从参数榜单转向真实的活跃数据,四家头部大厂的底层商业图谱已极度收敛。AI的竞争,早已变成一场基于算力成本与高频场景的残酷算账。

来自主题: AI技术研报
7717 点击    2026-03-31 09:49
Claude Code 15 个被低估的功能,创建者亲述

Claude Code 15 个被低估的功能,创建者亲述

Claude Code 15 个被低估的功能,创建者亲述

你日常用 Claude Code,用了多少功能?手机上写代码?语音编程?让 Claude 每 5 分钟自动帮你处理代码审查?

来自主题: AI技术研报
8793 点击    2026-03-30 17:11
AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

AI超懂人情世故,但人类就吃这一套:AI谄媚研究登上《科学》杂志

自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。

来自主题: AI技术研报
6369 点击    2026-03-30 16:06
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8279 点击    2026-03-30 15:02