AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划能力,

来自主题: AI技术研报
4057 点击    2025-04-22 14:45
行业必读丨OpenAI 最新报告:构建 Agents 最佳实践

行业必读丨OpenAI 最新报告:构建 Agents 最佳实践

行业必读丨OpenAI 最新报告:构建 Agents 最佳实践

OpenAI 最近发布了三份针对企业客户的研究报告,本次挑选了其中的「A Practical guide to building AI agents」一篇进行了翻译。除非已经是 Agent 资深开发大佬,否则强烈建议 AI 行业的大家都来读一下这篇报告。

来自主题: AI技术研报
9361 点击    2025-04-22 09:30
UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

UIUC联手谷歌发布Search-R1:大模型学会「边想边查」,推理、搜索无缝切换

DeepSeek-R1 展示了强化学习在提升模型推理能力方面的巨大潜力,尤其是在无需人工标注推理过程的设定下,模型可以学习到如何更合理地组织回答。然而,这类模型缺乏对外部数据源的实时访问能力,一旦训练语料中不存在某些关键信息,推理过程往往会因知识缺失而失败。

来自主题: AI技术研报
7141 点击    2025-04-22 09:02
谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

谷歌联合强化学习之父:通过经验学习的4大核心,Agent将获得超人能力 |最新战略瞭望

本文对DeepMind两位泰斗级科学家David Silver和Richard Sutton的重磅论文《Welcome to the Era of Experience》进行了深度解读,我将其视为AI发展方向的一份战略瞭望图。

来自主题: AI技术研报
7324 点击    2025-04-22 08:43
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5291 点击    2025-04-22 08:39
为什么AI做的动画一眼就能看出来

为什么AI做的动画一眼就能看出来

为什么AI做的动画一眼就能看出来

动画片和我们拍摄的视频其实还是有很大不一样的。一般来说,我们平时观看的大多数电视剧使用25帧/秒的帧率,大多数电影使用24帧/秒的帧率。对于摄像机而言,帧率的调节无非是改一改摄影设备的参数,即使是胶片时代,也仅仅是胶片使用量的区别,对人工影响不大。

来自主题: AI技术研报
5261 点击    2025-04-21 13:53
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!

来自主题: AI技术研报
8262 点击    2025-04-21 10:52
LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

「一位顶尖科学家,有数千亿美元的资源,却仍然能把Meta搞砸了!」最近,圈内对LeCun的埋怨和批评,似乎越来越压不住了。有人批评说,Meta之所以溃败,LeCun的教条主义就是罪魁祸首。但LeCun却表示,自己尝试了20年自回归预测,彻底失败了,所以如今才给LLM判死刑!

来自主题: AI技术研报
9114 点击    2025-04-21 10:40
让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息,最大限度地减少知识结构化带来的信息丢失,从而减少大型语言模型(LLM)的幻觉。

来自主题: AI技术研报
6131 点击    2025-04-21 10:23
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。

来自主题: AI技术研报
7157 点击    2025-04-21 09:41
264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

264页智能体综述来了!MetaGPT等20家顶尖机构、47位学者参与

近期,大模型智能体(Agent)的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及,还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议,都预示了 AI Agent 的巨大潜力。

来自主题: AI技术研报
5838 点击    2025-04-21 09:28
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

来自主题: AI技术研报
8046 点击    2025-04-20 22:19
2025,如何理解AI制药

2025,如何理解AI制药

2025,如何理解AI制药

当前,人们对人工智能驱动的药物发现公司(以下简称 AIDD)这一新兴公司确发有效的界定。2025年开年,DeepSeek的爆火为AI医疗和AI制药领域带来了多维度变革。近日,BioPharma Trend发表了一份AI制药研究报告,报告力图从各个维度回答AI对生物医药的关键价值。

来自主题: AI技术研报
7038 点击    2025-04-20 21:49
具身空间数据技术的路线之争:合成重建VS全端生成

具身空间数据技术的路线之争:合成重建VS全端生成

具身空间数据技术的路线之争:合成重建VS全端生成

具身智能的突破离不开高质量数据。目前,具身合成数据有两条主要技术路线之争:“视频合成+3D重建”or “端到端3D生成”。英伟达在CES 2025指出“尚无互联网规模的机器人数据”,自动驾驶已具备城市级仿真,但家庭等复杂室内环境缺乏3D合成平台。

来自主题: AI技术研报
7220 点击    2025-04-20 21:42
仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑

仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑

仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑

微软研究院开源的原生1bit大模型BitNet b1.58 2B4T,将低精度与高效能结合,开创了AI轻量化的新纪元。通过精心设计的推理框架,BitNet不仅突破了内存的限制,还在多项基准测试中表现出色,甚至与全精度模型不相上下。

来自主题: AI技术研报
5943 点击    2025-04-20 21:12
ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星

ControlNet作者再封神!6GB显存直出「兔八哥」动画,开源一夜获2k+星

只用6GB显存的笔记本GPU,就能生成流畅的高质量视频!斯坦福研究团队重磅推出FramePack,大幅改善了视频生成中的遗忘和漂移难题。

来自主题: AI技术研报
5497 点击    2025-04-19 17:05
Fellou:AI 的「组团打工」时代,由中国团队揭幕

Fellou:AI 的「组团打工」时代,由中国团队揭幕

Fellou:AI 的「组团打工」时代,由中国团队揭幕

这是一份报告,有关英伟达50系显卡。非常高质量,AI 一键出的

来自主题: AI技术研报
6874 点击    2025-04-19 16:09
DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

DeepSeek-R1「内心世界」首次曝光!AI显微镜破解R1大脑,发现神秘推理机制

推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。

来自主题: AI技术研报
5975 点击    2025-04-19 15:29
纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归

纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归

纯自回归图像生成模型开源来了,复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功,但在图像生成领域,扩散模型凭借强大的生成质量和可控性占据了主导地位。

来自主题: AI技术研报
7466 点击    2025-04-19 15:01
推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷 token 了,无需显式思维链,推理模型也能实现高效且准确的推理。

来自主题: AI技术研报
7111 点击    2025-04-19 14:39
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。

来自主题: AI技术研报
6551 点击    2025-04-19 14:08
两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

Two Heads are Better Than One"(两个脑袋比一个好/双Agent更优)源自英语中的一句古老谚语。MAS-TTS框架的研究者将这一朴素智慧应用到LLM中,创造性地让多个智能体协同工作,如同专家智囊团。

来自主题: AI技术研报
7653 点击    2025-04-19 13:39
全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

全球顶尖AI来考公,不会推理全翻车!致命缺陷曝光,被倒数5%人类碾压

公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。

来自主题: AI技术研报
7211 点击    2025-04-18 15:20
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」

来自主题: AI技术研报
7133 点击    2025-04-18 14:40
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。

来自主题: AI技术研报
4496 点击    2025-04-18 10:13