AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。

来自主题: AI技术研报
6709 点击    2025-06-02 15:04
AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

数据枯竭正成为AI发展的新瓶颈!CMU团队提出革命性方案SRT:让LLM实现无需人类标注的自我进化!SRT初期就能迭代提升数学与推理能力,甚至性能逼近传统强化学习的效果,揭示了其颠覆性潜力。

来自主题: AI技术研报
6261 点击    2025-06-02 14:16
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa

近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。

来自主题: AI技术研报
6904 点击    2025-06-01 17:58
近期必读,Mary Meeker 340页PPT分析AI现状和未来(附PDF下载地址,双语翻译版哦)

近期必读,Mary Meeker 340页PPT分析AI现状和未来(附PDF下载地址,双语翻译版哦)

近期必读,Mary Meeker 340页PPT分析AI现状和未来(附PDF下载地址,双语翻译版哦)

昨天发现Mary Meeker又重新开始发布她每年一次的《互联网趋势报告》,只不过这次开始叫《人工智能趋势报告》了,整份报告有 340 页,非常详细的分析了AI领域的现状。

来自主题: AI技术研报
17784 点击    2025-06-01 14:33
AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

AI记忆系统首获统一框架!6大操作让大模型拥有人类记忆能力

来自香港中文大学、爱丁堡大学、香港科技大学与华为爱丁堡研究中心的研究团队联合发布了一项关于AI记忆机制的系统性综述,旨在在大模型时代背景下,重新审视并系统化理解智能体的记忆构建与演化路径。

来自主题: AI技术研报
7762 点击    2025-06-01 13:58
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源

研究者针对 few-shot 图像编辑提出一个新的自回归模型结构 ——InstaManip,并创新性地提出分组自注意力机制(group self-attention),在此任务上取得了优异的效果。

来自主题: AI技术研报
7695 点击    2025-06-01 13:30
斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

斯坦福华人天团意外爆冷!AI用纯CUDA-C编内核,竟干翻PyTorch?

本想练练手合成点数据,没想到却一不小心干翻了PyTorch专家内核!斯坦福华人团队用纯CUDA-C写出的AI生成内核,瞬间惊艳圈内并登上Hacker News热榜。团队甚至表示:本来不想发这个结果的。

来自主题: AI技术研报
7013 点击    2025-05-31 17:30
1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

1/15成本,实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印,让AIGC图像可溯源,已经成为行业共识。

来自主题: AI技术研报
6234 点击    2025-05-31 16:48
SSM+扩散模型,竟造出一种全新的「视频世界模型」

SSM+扩散模型,竟造出一种全新的「视频世界模型」

SSM+扩散模型,竟造出一种全新的「视频世界模型」

当状态空间模型遇上扩散模型,对世界模型意味着什么?

来自主题: AI技术研报
7955 点击    2025-05-31 16:40
o3崛起,但推理模型离「撞墙」只剩一年?

o3崛起,但推理模型离「撞墙」只剩一年?

o3崛起,但推理模型离「撞墙」只剩一年?

OpenAI的o3推理模型席卷AI界,算力暴增10倍,能力突飞猛进!但专家警告:最多一年,推理模型可能一年内撞上算力资源极限。OpenAI还能否带来惊喜?

来自主题: AI技术研报
9012 点击    2025-05-31 15:36
10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

10个小模型并联跑赢GPT-4.1!无额外训练,方法仅4步

近年来,语言模型技术迅速发展,然而代表性成果如Gemini 2.5Pro和GPT-4.1,逐渐被谷歌、OpenAI等科技巨头所垄断。

来自主题: AI技术研报
6819 点击    2025-05-31 15:35
Correlations:氛围测试你的向量模型

Correlations:氛围测试你的向量模型

Correlations:氛围测试你的向量模型

在今年 ICLR 会议上,我们被问到最多且最有意思的问题是:像 Jina AI 这样的向量搜索模型提供商,除了在 MTEB 上做基准测试,会不会做些氛围测试 (Vibe-testing)?

来自主题: AI技术研报
8008 点击    2025-05-31 15:20
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报
8627 点击    2025-05-31 14:37
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程

现在,请大家一起数一下“1”、“2”。OK,短短2秒钟时间,一个准万亿MoE大模型就已经吃透如何解一道高等数学大题了!而且啊,这个大模型还是不用GPU来训练,全流程都是大写的“国产”的那种。

来自主题: AI技术研报
7594 点击    2025-05-31 14:11
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6568 点击    2025-05-30 17:30
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊

来和机器狗一起运动不?你的羽毛球搭子来了!无需人工协助,仅靠强化学习,机器狗子就学会了羽毛球哐哐对打。基于强化学习,研究人员开发了机器狗的全身视觉运动控制策略,同步控制腿部(18个自由度)移动,和手臂挥拍动作。

来自主题: AI技术研报
8377 点击    2025-05-30 17:08
全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用

全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用

全球首个AI智能体「自进化」开源框架来了!一次部署,终生可用

多AI智能体系统的复杂构建与优化,长期以来是用智能体解决科研问题和场景落地的瓶颈。来自英国格拉斯哥大学的研究团队发布了全球首个AI智能体自进化开源框架EvoAgentX,通过引入自我进化机制,打破了传统多智能体系统在构建和优化中的限制!

来自主题: AI技术研报
7489 点击    2025-05-30 16:57
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI

上海交通大学联合中科大在本文中指出:现阶段大模型智能体的主要障碍不在于模型能力不足,而在于其「Agentic ROI」尚未达到实用化门槛。研究团队提出 Agentic ROI(Agentic Return on Investment)这一核心指标,用于衡量一个大模型智能体在真实使用场景中所带来的「信息收益」与其「使用成本」之间的比值:

来自主题: AI技术研报
7331 点击    2025-05-30 15:06
中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考

中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考

中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考

在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。

来自主题: AI技术研报
8962 点击    2025-05-30 12:53
妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒

妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒

妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒

斯坦福Hazy实验室推出新一代低延迟推理引擎「Megakernel」,将Llama-1B模型前向传播完整融合进单一GPU内核,实现推理时间低于1毫秒。在B200上每次推理仅需680微秒,比vLLM快3.5倍。

来自主题: AI技术研报
7887 点击    2025-05-30 12:36
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核心优势。

来自主题: AI技术研报
7363 点击    2025-05-30 12:08
自进化零监督多Agent框架: MAS-ZERO,让AI因地制宜动态适应

自进化零监督多Agent框架: MAS-ZERO,让AI因地制宜动态适应

自进化零监督多Agent框架: MAS-ZERO,让AI因地制宜动态适应

主席在《矛盾论》中强调"具体问题具体分析,是Marxism的活的灵魂"。而在AI领域,我们终于有了一个能够践行这一哲学思想的技术框架——MAS-ZERO,帮我们构建能够因地制宜、因时制宜的智能系统。

来自主题: AI技术研报
5948 点击    2025-05-30 12:03
Linear-MoE:线性注意力遇上混合专家的开源实践

Linear-MoE:线性注意力遇上混合专家的开源实践

Linear-MoE:线性注意力遇上混合专家的开源实践

来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。

来自主题: AI技术研报
7326 点击    2025-05-30 12:03