AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」

自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。

来自主题: AI技术研报
7807 点击    2025-05-08 10:15
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%

字节开源图像编辑新方法,比当前SOTA方法提高9.19%的性能,只用了1/30的训练数据和1/13参数规模的模型。

来自主题: AI技术研报
6697 点击    2025-05-08 09:52
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。

来自主题: AI技术研报
8904 点击    2025-05-07 15:23
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二

随着Gemini、GPT-4o等商业大模型把基于文本的图像编辑这一任务再次推向高峰,获取更高质量的编辑数据用于训练、以及训练更大参数量的模型似乎成了提高图像编辑性能的唯一出路。然而浙大哈佛这个团队却反其道而行之,仅用以往工作0.1%的数据量(获取自公开数据集)和1%的训练参数,以极低成本实现了图像的高质量编辑,在一些方面媲美甚至超越商业大模型!

来自主题: AI技术研报
8909 点击    2025-05-07 14:49
万字长文带你读懂强化学习,去中心化强化学习又能否实现?

万字长文带你读懂强化学习,去中心化强化学习又能否实现?

万字长文带你读懂强化学习,去中心化强化学习又能否实现?

强化学习(RL)是当今 AI 领域最热门的词汇之一。近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。

来自主题: AI技术研报
7895 点击    2025-05-07 14:17
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。

来自主题: AI技术研报
6934 点击    2025-05-07 14:03
南加州大学和苹果重磅:用「心理支架」PB&J提升AI角色扮演能力,让Agent更懂用户

南加州大学和苹果重磅:用「心理支架」PB&J提升AI角色扮演能力,让Agent更懂用户

南加州大学和苹果重磅:用「心理支架」PB&J提升AI角色扮演能力,让Agent更懂用户

照这个发展速度,不远的将来AI不仅能模仿你的行为,还能理解你为何做出这些选择。PB&J框架正是这一突破性技术的代表,它通过引入心理学中的"支架"概念,使AI能够构建合理化解释,深入理解人类决策背后的动机。

来自主题: AI技术研报
7825 点击    2025-05-07 09:59
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。

来自主题: AI技术研报
5762 点击    2025-05-07 09:30
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

超越DeepSeek-R1的英伟达开源新王Llama-Nemotron,是怎么训练出来的?刚刚放出的论文,把一切细节毫无保留地全部揭秘了!

来自主题: AI技术研报
6942 点击    2025-05-06 17:08
VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。

来自主题: AI技术研报
8048 点击    2025-05-06 15:07
如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

你信任的AI排行榜,可能只是一场精心策划的骗局!震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱,揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。

来自主题: AI技术研报
6897 点击    2025-05-06 15:00
苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

苹果提出原生多模态Scaling Law!早融合+MoE,性能飙升秘密武器

研究揭示早融合架构在低计算预算下表现更优,训练效率更高。混合专家(MoE)技术让模型动态适应不同模态,显著提升性能,堪称多模态模型的秘密武器。

来自主题: AI技术研报
8882 点击    2025-05-06 14:41
AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

具身智能最大的挑战在于泛化能力,即在陌生环境中正确完成任务。最近,Physical Intelligence推出全新的π0.5 VLA模型,通过异构任务协同训练实现了泛化,各种家务都能拿捏。

来自主题: AI技术研报
7171 点击    2025-05-06 14:29
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础

Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础

Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础

推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。

来自主题: AI技术研报
7226 点击    2025-05-06 13:58
AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源等子任务上已展现显著进展。

来自主题: AI技术研报
6221 点击    2025-05-06 13:40
「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。

来自主题: AI技术研报
5848 点击    2025-05-06 10:53
想去哪就去哪!FindAnything:基于CLIP的开放词汇三维建图,实现真正的“按需探索”

想去哪就去哪!FindAnything:基于CLIP的开放词汇三维建图,实现真正的“按需探索”

想去哪就去哪!FindAnything:基于CLIP的开放词汇三维建图,实现真正的“按需探索”

在复杂、未知的现实环境中,传统导航方法往往依赖闭集语义或事先构建的地图,难以实现真正的“按需探索”。为打破这一瓶颈,本文提出了 FindAnything ——一套融合视觉语言模型的对象为中心、开放词汇三维建图与探索系统。

来自主题: AI技术研报
4522 点击    2025-05-06 10:23
成熟的编程智能体,已经学会升级自己的系统了

成熟的编程智能体,已经学会升级自己的系统了

成熟的编程智能体,已经学会升级自己的系统了

编程智能体,几乎成为了 2025 年最热门的话题之一。不管是学术机构还是工业界,都在寻找更高效的落地路径。

来自主题: AI技术研报
7746 点击    2025-05-06 09:13
细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了!

来自主题: AI技术研报
6625 点击    2025-05-06 09:01
AGI失控率>90%!MIT教授算出「康普顿常数」,AI地球「夺权率」已锁定?

AGI失控率>90%!MIT教授算出「康普顿常数」,AI地球「夺权率」已锁定?

AGI失控率>90%!MIT教授算出「康普顿常数」,AI地球「夺权率」已锁定?

在这场通往AGI的竞赛中,人类或许正在逐渐走向失控。MIT最新研究指出:即使采用最理想的监督机制,人类成功控制超级智能的概率也仅为52%,而全面失控的风险可能超过90%。

来自主题: AI技术研报
7960 点击    2025-05-04 17:59
DeepSeek开源的文件系统,是如何提升大模型效率的?

DeepSeek开源的文件系统,是如何提升大模型效率的?

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。

来自主题: AI技术研报
6089 点击    2025-05-04 17:35