AI技术研报-这里有最前沿的人工智能技术解读

LeCun被痛批：你把Meta搞砸了！烧掉千亿算力，自曝折腾20年彻底失败

「一位顶尖科学家，有数千亿美元的资源，却仍然能把Meta搞砸了！」最近，圈内对LeCun的埋怨和批评，似乎越来越压不住了。有人批评说，Meta之所以溃败，LeCun的教条主义就是罪魁祸首。但LeCun却表示，自己尝试了20年自回归预测，彻底失败了，所以如今才给LLM判死刑！

来自主题: AI技术研报

9013 点击 2025-04-21 10:40

让DeepSeek更可靠！清华提出Hyper-RAG，用超图提升知识建模精准度

Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息，最大限度地减少知识结构化带来的信息丢失，从而减少大型语言模型（LLM）的幻觉。

来自主题: AI技术研报

6016 点击 2025-04-21 10:23

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

7016 点击 2025-04-21 09:41

264页智能体综述来了！MetaGPT等20家顶尖机构、47位学者参与

近期，大模型智能体（Agent）的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及，还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议，都预示了 AI Agent 的巨大潜力。

来自主题: AI技术研报

5689 点击 2025-04-21 09:28

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

还在用搜索和规则训练AI游戏？现在直接「看回放」学打宝可梦了！德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体，不靠规则、没用启发式算法，纯靠47.5万场人类对战回放训练出来，居然打上了Pokémon Showdown全球前10%！

来自主题: AI技术研报

7936 点击 2025-04-20 22:19

2025，如何理解AI制药

当前，人们对人工智能驱动的药物发现公司（以下简称 AIDD）这一新兴公司确发有效的界定。2025年开年，DeepSeek的爆火为AI医疗和AI制药领域带来了多维度变革。近日，BioPharma Trend发表了一份AI制药研究报告，报告力图从各个维度回答AI对生物医药的关键价值。

来自主题: AI技术研报

6865 点击 2025-04-20 21:49

具身空间数据技术的路线之争：合成重建VS全端生成

具身智能的突破离不开高质量数据。目前，具身合成数据有两条主要技术路线之争：“视频合成+3D重建”or “端到端3D生成”。英伟达在CES 2025指出“尚无互联网规模的机器人数据”，自动驾驶已具备城市级仿真，但家庭等复杂室内环境缺乏3D合成平台。

来自主题: AI技术研报

7072 点击 2025-04-20 21:42

仅需0.4GB，参数只有0和±1！微软开源首个原生1 bit模型，CPU轻松跑

微软研究院开源的原生1bit大模型BitNet b1.58 2B4T，将低精度与高效能结合，开创了AI轻量化的新纪元。通过精心设计的推理框架，BitNet不仅突破了内存的限制，还在多项基准测试中表现出色，甚至与全精度模型不相上下。

来自主题: AI技术研报

5818 点击 2025-04-20 21:12

马斯克炫酷变身毒液！实测通义Wan2.1首尾帧视频模型，还能“拼接”经典梗图

在GitHub狂揽1w+星标的通义万相Wan2.1，又双叒上新了！

来自主题: AI技术研报

5426 点击 2025-04-19 17:20

ControlNet作者再封神！6GB显存直出「兔八哥」动画，开源一夜获2k+星

只用6GB显存的笔记本GPU，就能生成流畅的高质量视频！斯坦福研究团队重磅推出FramePack，大幅改善了视频生成中的遗忘和漂移难题。

来自主题: AI技术研报

5391 点击 2025-04-19 17:05

Fellou：AI 的「组团打工」时代，由中国团队揭幕

这是一份报告，有关英伟达50系显卡。非常高质量，AI 一键出的

来自主题: AI技术研报

6691 点击 2025-04-19 16:09

DeepSeek-R1「内心世界」首次曝光！AI显微镜破解R1大脑，发现神秘推理机制

推理模型与普通大语言模型有何本质不同？它们为何会「胡言乱语」甚至「故意撒谎」？Goodfire最新发布的开源稀疏自编码器（SAEs），基于DeepSeek-R1模型，为我们提供了一把「AI显微镜」，窥探推理模型的内心世界。

来自主题: AI技术研报

5879 点击 2025-04-19 15:29

纯自回归图像生成模型开源来了，复旦联手字节seed共同捍卫自回归

基于Transformer的自回归架构在语言建模上取得了显著成功，但在图像生成领域，扩散模型凭借强大的生成质量和可控性占据了主导地位。

来自主题: AI技术研报

7340 点击 2025-04-19 15:01

推理模型其实无需「思考」？伯克利发现有时跳过思考过程会更快、更准确

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时，加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹：别再卷 token 了，无需显式思维链，推理模型也能实现高效且准确的推理。

来自主题: AI技术研报

6959 点击 2025-04-19 14:39

语音合成突破：F5R-TTS首次实现非自回归模型的GRPO优化，零样本克隆性能显著提升

在人工智能技术日新月异的今天，语音合成（TTS）领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音，更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。

来自主题: AI技术研报

6420 点击 2025-04-19 14:08

两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

Two Heads are Better Than One"（两个脑袋比一个好/双Agent更优）源自英语中的一句古老谚语。MAS-TTS框架的研究者将这一朴素智慧应用到LLM中，创造性地让多个智能体协同工作，如同专家智囊团。

来自主题: AI技术研报

7502 点击 2025-04-19 13:39

全球顶尖AI来考公，不会推理全翻车！致命缺陷曝光，被倒数5%人类碾压

公考行测中的逻辑推理题，是不少考生的噩梦，这次，CMU团队就此为基础，打造了一套逻辑谜题挑战。实测后发现，o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败！最强的AI正确率也只有57.5%，而人类TOP选手却能接近满分。

来自主题: AI技术研报

7100 点击 2025-04-18 15:20

突破AI视觉“选择性失明”，哈工大首次实现指令驱动的全景式感知

对于AI视觉多模态大模型只关注显著信息这一根本性缺陷，哈工大GiVE实现突破！

来自主题: AI技术研报

5842 点击 2025-04-18 15:13

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

4 月 14 日，谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲，主题为「AI 的重要趋势：我们是如何走到今天的，我们现在能做什么，以及我们如何塑造 AI 的未来？」

来自主题: AI技术研报

7011 点击 2025-04-18 14:40

CVPR 2025｜视频抠图MatAnyone来了，一次指定全程追踪，发丝级还原

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值，但面对复杂背景和多目标干扰时，如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统，始终是个挑战。

来自主题: AI技术研报

4393 点击 2025-04-18 10:13

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

视频理解的CoT推理能力，怎么评？

来自主题: AI技术研报

5729 点击 2025-04-18 09:46

UC伯克利：让推理模型少思考，准确率反而更高了！

让推理模型不要思考，得到的结果反而更准确？

来自主题: AI技术研报

8167 点击 2025-04-18 09:34

物理视频真实生成！大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近，来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

来自主题: AI技术研报

5978 点击 2025-04-18 09:08

MiniMax押注线性注意力，让百万级长文本只用1/2700算力｜对话MiniMax-01架构负责人钟怡然

Transformer架构主导着生成式AI浪潮的当下，但它并非十全十美，也并非没有改写者。

来自主题: AI技术研报

7205 点击 2025-04-17 15:29

围绕多智能体黑箱非凸优化共识难题，华南理工大学团队发表系列研究

多智能体系统分布式共识优化的一系列研究来了！

来自主题: AI技术研报

7262 点击 2025-04-17 15:04

142页重磅，DeepSeek-R1的"甜蜜点"，开创了一个崭新的研究领域“思维学”。 | 最新

这是一份142页的研究论文，本文深入解析了大型推理模型DeepSeek-R1如何通过"思考"解决问题。研究揭示了模型思维的结构化过程，以及每个问题都存在甜蜜点"最佳推理区间"的惊人发现。这标志着"思维学"这一新兴领域的诞生，为我们理解和优化AI推理能力提供了宝贵框架。

来自主题: AI技术研报

6993 点击 2025-04-17 14:26

文本向量的长度偏差及其在搜索中的影响

向量模型的核心功能是测量语义相似度，但这个测量结果很容易受到多种干扰因素的影响。在本文中，我们将着眼于文本向量模型中一个普遍存在的偏差来源：输入内容的长度。

来自主题: AI技术研报

8983 点击 2025-04-17 14:19

4K分辨率视觉预训练首次实现！伯克利&英伟达多模态新SOTA，更准且3倍加速处理

当前，所有主流的视觉基础模型（如 SigLIP、DINOv2 等）都仍然在低分辨率（如 384 * 384 分辨率）下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率，这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报

5946 点击 2025-04-17 13:54

JHU提出最强ToM方法，AutoToM横扫五大基准

如何让 AI 像人一样思考？如何拥有像人一样的认知能力和社会能力？

来自主题: AI技术研报

8132 点击 2025-04-17 10:27

从思考到行动：大模型自主工具调用能力的深度实现

GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。

来自主题: AI技术研报

5959 点击 2025-04-17 10:00