AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独

卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独

卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独

LLM推理已经顶尖,精确计算却跟不上。这局怎么破?卡帕西点赞的解决方法来了,在大模型内部构建一台原生计算机。新方法不搞外包那一套(不依赖任何外部工具),直接在Transformer权重里内嵌可执行程序。

来自主题: AI技术研报
8204 点击    2026-03-18 10:28
清华团队首发OpenClaw研究报告!

清华团队首发OpenClaw研究报告!

清华团队首发OpenClaw研究报告!

「龙虾」实火!最近,清华沈阳教授团队发布了两份最新报告,对OpenClaw做了深度且全面的解读。

来自主题: AI技术研报
7563 点击    2026-03-18 09:33
OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧

OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧

OpenClaw带火AI记忆,DeepMind用混合记忆把3D重建拉到近2万帧

过去两天,全球爆火的 Agent 私人助手 OpenClaw,接连更新了两个版本,让人直呼「开发团队是不睡觉了吗?」

来自主题: AI技术研报
9780 点击    2026-03-18 09:31
以「图」破局,HyperOffload定义超节点存储管理新范式

以「图」破局,HyperOffload定义超节点存储管理新范式

以「图」破局,HyperOffload定义超节点存储管理新范式

随着生成式 AI 迈入万亿参数时代,大语言模型(LLM)的推理与部署面临着前所未有的“显存墙”挑战。如何在超节点(SuperNode)复杂的异构存储架构下,实现海量张量的高效管理和调度,已成为大模型落地的胜负手。

来自主题: AI技术研报
9701 点击    2026-03-18 09:30
挺搞笑,MiniMax模型就是不认识「马嘉祺」

挺搞笑,MiniMax模型就是不认识「马嘉祺」

挺搞笑,MiniMax模型就是不认识「马嘉祺」

最近,有网友发现了一个很有意思的 bug:MiniMax 的模型似乎不认识「马嘉祺」这三个字。

来自主题: AI技术研报
7829 点击    2026-03-17 14:35
华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

华人团队打造养虾神器,开源OpenClaw-RL框架,让AI边用边学

过去一周全网都在养那只红色卡通龙虾 OpenClaw。作为能够自己动手干活的 AI 智能体,有人花几千块请它回家,几天后账号被盗、文件被删,又花几百块请人卸载。从排队安装到扎堆卸载只隔了一周。

来自主题: AI技术研报
9241 点击    2026-03-17 14:34
大象秒变挖掘机!三维变形新突破,无需额外训练 | CVPR'26

大象秒变挖掘机!三维变形新突破,无需额外训练 | CVPR'26

大象秒变挖掘机!三维变形新突破,无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D,无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征,精准控制结构与时序,轻松完成复杂变形,效果远超传统方法。

来自主题: AI技术研报
9785 点击    2026-03-17 14:27
OpenAI 官方博客:用技能(Skills)加速开源项目维护

OpenAI 官方博客:用技能(Skills)加速开源项目维护

OpenAI 官方博客:用技能(Skills)加速开源项目维护

我们用 Codex 改变了维护 OpenAI Agents SDK[1] 仓库的方式。仓库本地的技能(skills)、AGENTS.md 文件和 GitHub Actions,让我们把反复出现的工程工作——验证、发布准备、示例集成测试、PR 审查,变成了可重复执行的工作流。

来自主题: AI技术研报
7152 点击    2026-03-17 10:07
一个 9.9 元拼车账号,我打通了 Claude Code、Cherry Studio、OpenClaw

一个 9.9 元拼车账号,我打通了 Claude Code、Cherry Studio、OpenClaw

一个 9.9 元拼车账号,我打通了 Claude Code、Cherry Studio、OpenClaw

所以今天我就去闲鱼上找了找,看看有没有更便宜一点、能继续顶上来的方案,最后顺手买了一个 9.9 元的 bussiness 拼车。买完之后,我就顺手把它折腾了一下,最终成功接到了 Claude Code 里面。

来自主题: AI技术研报
9139 点击    2026-03-17 10:00
80万条数据揭示隐患:AI正在「污染」病历,你的诊疗数据可能越来越不靠谱

80万条数据揭示隐患:AI正在「污染」病历,你的诊疗数据可能越来越不靠谱

80万条数据揭示隐患:AI正在「污染」病历,你的诊疗数据可能越来越不靠谱

随着生成式人工智能在医疗领域的加速渗透,越来越多的病历、影像报告及各类临床文本正逐步纳入 AI 参与生成的范畴。这一旨在提升医疗效率的技术革新背后,潜藏着威胁诊断安全性的深层隐患。

来自主题: AI技术研报
9830 点击    2026-03-17 09:25
CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

CVPR 2026 | 从视觉Token内在变化量出发,实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型(LVLMs)所需处理的视觉 Token 数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断 Token 重要性,这一路线暗藏两个致命缺陷:

来自主题: AI技术研报
8879 点击    2026-03-17 08:49
CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

CVPR'26 | 以机器人为中心的ToM推理框架,从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架,让机器人像人一样理解他人想法并主动帮忙,构建了首个以机器人为中心的心智推理评测体系,通过六层推理链条,让AI不仅看懂场景,更能推断意图、做出决策、执行动作,显著提升助人能力。

来自主题: AI技术研报
6145 点击    2026-03-17 08:49
全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!

全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!

全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!

当 Transformer 席卷计算机视觉领域,高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显:标准 Softmax 注意力的二次复杂度,让 70K+token 的超分辨率任务直接显存爆炸,高分辨率图像分割、检测的推理延迟居高不下。

来自主题: AI技术研报
5316 点击    2026-03-17 08:48
Transformer祖制,被Kimi捅破了!谷歌大V高赞:Kimi触碰了十年没人敢碰的禁区!性能炸裂,相当于免费得1.25倍算力,网友:简直天才洞察

Transformer祖制,被Kimi捅破了!谷歌大V高赞:Kimi触碰了十年没人敢碰的禁区!性能炸裂,相当于免费得1.25倍算力,网友:简直天才洞察

Transformer祖制,被Kimi捅破了!谷歌大V高赞:Kimi触碰了十年没人敢碰的禁区!性能炸裂,相当于免费得1.25倍算力,网友:简直天才洞察

就在刚刚,Moonshot AI(月之暗面)发布了一项足以撼动 Transformer 底层的研究:《Attention Residuals》。海外科技大 V,谷歌高级AI产品经理 Shubham Saboo 直接开启了“高赞”模式:“他们触碰了那个十年没人敢碰的部分。”

来自主题: AI技术研报
8570 点击    2026-03-16 17:47
从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。

来自主题: AI技术研报
5307 点击    2026-03-16 15:06
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?

来自主题: AI技术研报
6472 点击    2026-03-16 14:27
后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发

在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

来自主题: AI技术研报
5878 点击    2026-03-16 14:26
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报
9196 点击    2026-03-16 14:25
别怪你的OpenClaw像个乱挥锤子的外行,面对20万个Skills,它缺的是AgentSkillOS

别怪你的OpenClaw像个乱挥锤子的外行,面对20万个Skills,它缺的是AgentSkillOS

别怪你的OpenClaw像个乱挥锤子的外行,面对20万个Skills,它缺的是AgentSkillOS

自2025年10月Claude正式确立Agent Skills规范以来 ,Agent能力的边界正在被暴涨的脚本仓库迅速拓宽。截至2026年2月末,公开可用的Skills数量已突破28万大关 。回顾过去半年,Skills开发的火力几乎全集中在了“供给侧”,而且绝大多数由分散的第三方开发者维护。

来自主题: AI技术研报
6494 点击    2026-03-16 09:53
养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

养虾实战教程:我用OpenClaw做了个能盯盘,也能深度复盘的投资agent

先提前预告下,这个项目解决不了不赚钱的问题,但能帮助减少冲动交易,解决信息搜集、分析效率低问题。当然,也有同事吐槽,这是个韭菜RL,大家有选择地参考与批判一下就好。

来自主题: AI技术研报
7016 点击    2026-03-16 09:50
AI下半场的战场,从Agent记忆体正式打响

AI下半场的战场,从Agent记忆体正式打响

AI下半场的战场,从Agent记忆体正式打响

最近,一个叫OpenClaw(小龙虾)的开源项目突然爆火,甚至出现线下排队安装的场面。很多人第一次直观地看到,AI不只是chatbot,而是可以真正“动手”操作电脑、完成复杂任务和个性化工作流的智能体。这意味着AI正在进入下半场,开始走向真实应用,并逐渐进入普通人的日常生活。

来自主题: AI技术研报
8674 点击    2026-03-16 09:50
时间折叠:生成式AI如何重构商业规则

时间折叠:生成式AI如何重构商业规则

时间折叠:生成式AI如何重构商业规则

根据Xsignal AI Holo(AI全息)数据库数据显示,2026年初的AI细分行业数据,如果说“活跃用户量”代表了用户的使用意愿,那么“使用时长”则揭示了真实的市场依存度。基于这两项指标的交叉分析,市场已出现严重的结构性分化:

来自主题: AI技术研报
7678 点击    2026-03-15 08:57
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

近期,复旦大学 NLP 实验室(FDU NLP)、北京大学知识计算实验室(KCL)联合美团 LongCat Team 提出了一种 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通过引入 “粗思考,细求证” (Think Coarse Critic Fine, TCCF) 范式与有界自适应置信度解码

来自主题: AI技术研报
7172 点击    2026-03-14 08:39
Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面:牛津提出首个百万级多模态心脏基础模型CSFM

牛津大学团队推出全球首个心脏传感基础模型CSFM,能统一分析智能手环、心电图等多源数据,无论信号来自何处、是否完整,都能精准诊断房颤、预测死亡风险、重构血压波形,甚至用单一脉搏波生成完整心电图。打破了设备壁垒,让偏远地区也能享用顶级心脏监护,推动全球医疗平权。

来自主题: AI技术研报
8654 点击    2026-03-13 10:53
不用排长龙!JiuwenClaw助你一键养龙虾!

不用排长龙!JiuwenClaw助你一键养龙虾!

不用排长龙!JiuwenClaw助你一键养龙虾!

一个月前我们发布了基于华为 openJiuwen 开源社区构建的 DeepAgent 和 DeepSearch 两款智能体双双霸榜 [DeepAgent与DeepSearch双双霸榜!答案指向openJiuwen这一新兴开源项目]

来自主题: AI技术研报
5663 点击    2026-03-13 10:11