AI技术研报-这里有最前沿的人工智能技术解读

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究，说当前最先进的LLM在多轮对话中表现会大幅下降，平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型（包括Claude 3.7-Sonnet、Deepseek-R1等）在多轮对话中的表现差异，还解析了模型"迷失"的根本原因及有效缓解策略。

来自主题: AI技术研报

7013 点击 2025-05-20 10:16

颜水成领衔，给AI分段位！超100款多模态模型，无人达到L5

理想中的多模态大模型应该是什么样？十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集，用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足，且多数通用模型未能超越专家模型，真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报

8035 点击 2025-05-19 17:08

Index-AniSora：B站开源动画生成模型，斩获多项SOTA入选IJCAI25

B 站开源动画视频生成模型 Index-AniSora，支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成！

来自主题: AI技术研报

7049 点击 2025-05-19 16:46

华为+DeepSeek，推理性能创新高！技术报告也公布出来了

部署超大规模MoE这件事，国产芯片的推理性能，已经再创新高了—— 不仅是“英伟达含量为0”这么简单，更是性能全面超越英伟达Hopper架构！

来自主题: AI技术研报

9000 点击 2025-05-19 16:37

LLM又曝致命缺陷：根本不会看时钟！博士惊呆，准确率不及50%

AI能写论文、画图、考高分，但连「看表读时间」「今天是星期几」都错得离谱？最新研究揭示了背后惊人的认知缺陷，提醒我们：AI很强大，但精确推理还离不开人类。

来自主题: AI技术研报

7018 点击 2025-05-19 16:06

参数量暴降，精度反升！哈工大宾大联手打造点云分析新SOTA

新架构选择用KAN做3D感知，点云分析有了新SOTA！

来自主题: AI技术研报

5822 点击 2025-05-19 15:06

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

随着大模型的参数规模不断扩大，分布式训练已成为人工智能发展的中心技术路径。

来自主题: AI技术研报

9090 点击 2025-05-19 14:28

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

本文由匹兹堡大学智能系统实验室（Intelligent Systems Laboratory）的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。

来自主题: AI技术研报

7704 点击 2025-05-19 14:12

1篇长文 = N张小红书爆款图？！Gemini 2.5 Pro 这效率，我跪了！

你有没有这样的烦恼：辛辛苦苦写完一篇公众号文章，想转发到小红书，却要再花大量时间制作3:4比例的精美图片？作为一个小红书小号拥有者（小1万粉丝呢，虽然躺在那吃灰有点可惜），我深知这种痛苦。每次想着要做几张图片就头大，甚至因此放弃了不少内容的二次分发。

来自主题: AI技术研报

8165 点击 2025-05-19 11:06

换模型就得重新优化提示词？用下MetaSPO，专门优化系统提示的Meta-Learning框架 | 最新

每次更换语言模型就要重新优化提示词？资源浪费且效率低下！本文介绍MetaSPO框架，首个专注模型迁移系统提示优化的元学习方法，让一次优化的提示可跨模型通用。我在儿童教育场景的实验验证了效果：框架自动生成了五种不同教育范式的系统提示，最优的"苏格拉底式"提示成功由DeepSeek-V3迁移到通义千问模型，评分从0.3920提升至0.4362。

来自主题: AI技术研报

5854 点击 2025-05-19 10:11

刚刚！北大校友Lilian Weng最新博客来了：Why We Think

学习大模型的优质博客又更新了！

来自主题: AI技术研报

9127 点击 2025-05-18 16:30

CVPR 2025 | SketchVideo让手绘动起来，视频生成进入线稿时代

近年来，生成式人工智能的快速发展，在文本和图像生成领域都取得了很大的成功。

来自主题: AI技术研报

5913 点击 2025-05-18 16:01

ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动，代码已开源

本文作者分别来自中国科学院大学和中国科学院计算技术研究所。第一作者裴高政为中国科学院大学博士二年级学生，本工作共同通讯作者是中国科学院大学马坷副教授和黄庆明教授。

来自主题: AI技术研报

8182 点击 2025-05-18 14:47

ICML 2025｜如何凭「自动补全」实现100K生成3×加速？

在当前大模型推理愈发复杂的时代，如何快速、高效地产生超长文本，成为了模型部署与优化中的一大核心挑战。

来自主题: AI技术研报

7308 点击 2025-05-18 14:38

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

自回归（AR）范式凭借将语言转化为离散 token 的核心技术，在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫语言领域。

来自主题: AI技术研报

7143 点击 2025-05-18 14:28

中国科学院计算所：从 NFS 到 JuiceFS，大模型训推平台存储演进之路

经过对多种开源存储系统的评估对比，我们选择了 JuiceFS 。我们的架构采用 Redis 进行高性能元数据管理，同时构建了自有 MinIO 集群作为底层对象存储，这一架构完美解决了模型训练场景中的数据读写瓶颈、元数据访问延迟以及计算资源之间的存储互通问题。

来自主题: AI技术研报

6651 点击 2025-05-18 10:29

AI怎样模仿人类大脑的注意力机制？

最近，人们对AI谈得最多的是deepseek（简称DS）。这匹来自中国本土的黑马，闯入全球视野，一度扰乱美国股市，在 AI 领域掀起了一场轩然大波。

来自主题: AI技术研报

7923 点击 2025-05-17 18:15

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

FastVLM—— 让苹果手机拥有极速视觉理解能力

来自主题: AI技术研报

8253 点击 2025-05-17 16:54

谢赛宁等推出统一多模态模型！替代VAE实现图像理解/生成双SOTA，代码权重数据集全开源

统一图像理解和生成，还实现了新SOTA。

来自主题: AI技术研报

7813 点击 2025-05-17 16:35

苦研10年无果，千万经费打水漂！AI黑箱依然无解，谷歌撕破脸

ChatGPT「舔狗化」事件背后，暴漏目前AI仍是「黑箱」。一场关于「机制可解释性」的路线分歧，正撕裂AI研究最核心的价值共识。谷歌认怂，Anthropic死磕——AI还能被「看懂」吗？

来自主题: AI技术研报

6255 点击 2025-05-17 16:28

带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架，教AI学会使用视觉工具

教AI学会使用工具，带图推理就能变得更强？！

来自主题: AI技术研报

7178 点击 2025-05-17 16:03

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

7294 点击 2025-05-17 15:41

ICML 2025 Spotlight｜南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架，准确率提高20%

该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。

来自主题: AI技术研报

7070 点击 2025-05-17 15:18

MCU大厂的新战场

半导体行业观察：众多趋势表明，AI，不再只是“云端的特权”，而是正快速成为“终端的标配”。而在这一发展趋势下，微控制器（MCU）大厂似乎早已嗅到其中端倪。

来自主题: AI技术研报

7117 点击 2025-05-17 14:45

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，

来自主题: AI技术研报

5917 点击 2025-05-16 15:25

一键开关灯！谷歌用扩散模型，将电影级光影控制玩到极致

最近，Google 推出了一个可以精准控制画面中光影的项目 —— LightLab。它让用户能够从单张图像实现对光源的细粒度参数化控制，可以改变可见光源的强度和颜色、环境光的强度，并且能够将虚拟光源插入场景中。

来自主题: AI技术研报

7821 点击 2025-05-16 15:14

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

7015 点击 2025-05-16 15:06

ChatGPT的记忆机制被公开了

ChatGPT新版记忆功能居然被民间大佬逆向工程了！

来自主题: AI技术研报

9179 点击 2025-05-16 13:07

超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

超越OpenAI！国产大模型突袭，AI语音生成天花板被重新定义了。

来自主题: AI技术研报

7054 点击 2025-05-16 12:42

从Lovart的预设提示词，看懂专业级Design Agent的底层逻辑！

这两天Lovart产品火出圈外，昨天大家都还在疯狂求码，

来自主题: AI技术研报

5305 点击 2025-05-16 12:20