AI技术研报-这里有最前沿的人工智能技术解读

图像分词器造反了！华为 Selftok：自回归内核完美统一扩散模型，触发像素自主推理

自回归（AR）范式凭借将语言转化为离散 token 的核心技术，在大语言模型领域大获成功 —— 从 GPT-3 到 GPT-4o，「next-token prediction」以简单粗暴的因果建模横扫语言领域。

来自主题: AI技术研报

8619 点击 2025-05-18 14:28

中国科学院计算所：从 NFS 到 JuiceFS，大模型训推平台存储演进之路

经过对多种开源存储系统的评估对比，我们选择了 JuiceFS 。我们的架构采用 Redis 进行高性能元数据管理，同时构建了自有 MinIO 集群作为底层对象存储，这一架构完美解决了模型训练场景中的数据读写瓶颈、元数据访问延迟以及计算资源之间的存储互通问题。

来自主题: AI技术研报

7706 点击 2025-05-18 10:29

AI怎样模仿人类大脑的注意力机制？

最近，人们对AI谈得最多的是deepseek（简称DS）。这匹来自中国本土的黑马，闯入全球视野，一度扰乱美国股市，在 AI 领域掀起了一场轩然大波。

来自主题: AI技术研报

9793 点击 2025-05-17 18:15

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

FastVLM—— 让苹果手机拥有极速视觉理解能力

来自主题: AI技术研报

9979 点击 2025-05-17 16:54

谢赛宁等推出统一多模态模型！替代VAE实现图像理解/生成双SOTA，代码权重数据集全开源

统一图像理解和生成，还实现了新SOTA。

来自主题: AI技术研报

9508 点击 2025-05-17 16:35

苦研10年无果，千万经费打水漂！AI黑箱依然无解，谷歌撕破脸

ChatGPT「舔狗化」事件背后，暴漏目前AI仍是「黑箱」。一场关于「机制可解释性」的路线分歧，正撕裂AI研究最核心的价值共识。谷歌认怂，Anthropic死磕——AI还能被「看懂」吗？

来自主题: AI技术研报

7247 点击 2025-05-17 16:28

带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架，教AI学会使用视觉工具

教AI学会使用工具，带图推理就能变得更强？！

来自主题: AI技术研报

7794 点击 2025-05-17 16:03

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

强化学习（RL）+真实搜索引擎，可以有效提升大模型检索-推理能力。

来自主题: AI技术研报

8613 点击 2025-05-17 15:41

ICML 2025 Spotlight｜南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架，准确率提高20%

该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。

来自主题: AI技术研报

8352 点击 2025-05-17 15:18

MCU大厂的新战场

半导体行业观察：众多趋势表明，AI，不再只是“云端的特权”，而是正快速成为“终端的标配”。而在这一发展趋势下，微控制器（MCU）大厂似乎早已嗅到其中端倪。

来自主题: AI技术研报

8922 点击 2025-05-17 14:45

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，

来自主题: AI技术研报

7176 点击 2025-05-16 15:25

一键开关灯！谷歌用扩散模型，将电影级光影控制玩到极致

最近，Google 推出了一个可以精准控制画面中光影的项目 —— LightLab。它让用户能够从单张图像实现对光源的细粒度参数化控制，可以改变可见光源的强度和颜色、环境光的强度，并且能够将虚拟光源插入场景中。

来自主题: AI技术研报

8680 点击 2025-05-16 15:14

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

多模态大模型（Multimodal Large Language Models, MLLM）正迅速崛起，从只能理解单一模态，到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此，在AI竞赛进入“下半场”之际（由最近的OpenAI研究员姚顺雨所引发的共识观点），设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报

8969 点击 2025-05-16 15:06

ChatGPT的记忆机制被公开了

ChatGPT新版记忆功能居然被民间大佬逆向工程了！

来自主题: AI技术研报

10091 点击 2025-05-16 13:07

超越OpenAI、拿下全球双料第一，“AI吴彦祖”背后大模型SOTA了！

超越OpenAI！国产大模型突袭，AI语音生成天花板被重新定义了。

来自主题: AI技术研报

8852 点击 2025-05-16 12:42

从Lovart的预设提示词，看懂专业级Design Agent的底层逻辑！

这两天Lovart产品火出圈外，昨天大家都还在疯狂求码，

来自主题: AI技术研报

8197 点击 2025-05-16 12:20

梁文锋署名DeepSeek新论文：公开V3大模型降本方法

梁文锋亲自参与的DeepSeek最新论文，来了！

来自主题: AI技术研报

8119 点击 2025-05-16 11:47

「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元！

大型推理模型（如 OpenAI-o1、DeepSeek-R1）展现了强大的推理能力，但其静态知识限制了在复杂知识密集型任务及全面报告生成中的表现。为应对此挑战，深度研究智能体 WebThinker 赋予 LRM 在推理中自主搜索网络、导航网页及撰写报告的能力。

来自主题: AI技术研报

7634 点击 2025-05-16 11:04

表格RAG语义割裂，用Pneuma+SAT增强检索准确性和效率 |最新

在上一篇文章中，我为大家介绍了SAT如何通过神经网络驱动的智能分段技术，解决传统文本处理中的语义割裂问题。今天，我将继续与您探讨SAT如何与Pneuma系统融合，开创表格数据检索与表示的新范式。

来自主题: AI技术研报

7293 点击 2025-05-16 10:43

字节最新大模型秘籍：只挑能有推理潜力的数据训练！1.3B模型无需标签自动挑选

和人工标记数据说拜拜，利用预训练语言模型中的注意力机制就能选择可激发推理能力的训练数据！

来自主题: AI技术研报

7318 点击 2025-05-16 10:07

全球头部AI应用公司，现状如何？

随着DeepSeek的横空出世，行业竞争加剧，无论是AI原生企业还是转型中的互联网巨头，都面临战略路径的重新校准。这一现象引发了行业的连锁反应：一方面，头部企业加速产品迭代和推广；另一方面，部分企业由于战略失误和反应缓慢开始面临用户流失风险。在这样的竞争环境下，企业的战略选择显得尤为关键。成功的AI公司通常具备三大核心能力：精准的战略定位、快速的调整能力以及高效的执行落地。

来自主题: AI技术研报

10312 点击 2025-05-16 10:06