AI技术研报-这里有最前沿的人工智能技术解读

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

上下文长度达 13 万 token，适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

来自主题: AI技术研报

6968 点击 2025-05-28 09:42

Meta「轻量级」KernelLLM颠覆GPU内核生成，8B参数碾压GPT-4o

Meta推出KernelLLM，这个基于Llama 3.1微调的8B模型，竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示，它的单次推理性能超越GPT-4o和DeepSeek V3，多次生成时得分飙升。

来自主题: AI技术研报

7249 点击 2025-05-27 18:00

One RL to See Them All？一个强化学习统一视觉-语言任务！

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有待深入探索。

来自主题: AI技术研报

9386 点击 2025-05-27 17:33

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

推理大模型开卷新方向，阿里开源长文本深度思考模型QwenLong-L1，登上HuggingFace今日热门论文第二。

来自主题: AI技术研报

7540 点击 2025-05-27 16:58

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。

来自主题: AI技术研报

10278 点击 2025-05-27 16:53

扩散语言模型九倍推理加速！上海交大：KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

10491 点击 2025-05-27 16:22

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

来自主题: AI技术研报

9338 点击 2025-05-27 16:13

红杉中国xbench全球首发，AI智能体真实战力揭榜！

刚刚，全新AI基准测试工具xbench诞生，通过双轨评估体系和长青评估机制，追踪模型能力与实际场景价值。

来自主题: AI技术研报

10641 点击 2025-05-27 14:04

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」机制

AI居然不听指令，阻止人类把自己给关机了？？？

来自主题: AI技术研报

9715 点击 2025-05-27 13:48

3步轻松微调Qwen3，本地电脑就能搞，这个方案可以封神了！【喂饭级教程】

大家好，我是袋鼠帝今天给大家带来的是一个带WebUI，无需代码的超简单的本地大模型微调方案（界面操作），实测微调之后的效果也是非常不错。

来自主题: AI技术研报

9008 点击 2025-05-27 13:38

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

来自主题: AI技术研报

7375 点击 2025-05-27 13:21

99%的人都理解错了，AI Agent ≠ Agentic AI，康奈尔大学发33页论文澄清关键区别。

TL;DR：如果您有一个AI产品，用户问您这是AI Agent还是Agentic AI？如果您回答不出来，或者认为这两个概念是一回事，那您可能需要重新审视自己的技术认知了。不过没关系，因为99%的人都不知道，现在您只需要看完这篇文章就可以了。

来自主题: AI技术研报

7124 点击 2025-05-27 12:40

TPU vs GPU: 2025年会有何不同？

AI无处不在——从聊天机器人、推荐引擎到语音助手和ChatGPT或谷歌Gemini等工具。但在所有这些智能技术的背后，有一样东西经常被忽视：使这一切成为可能的硬件。

来自主题: AI技术研报

9129 点击 2025-05-27 11:21

这样更公平：用jina-reranker-m0为多模态文档打分重排

当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时，一篇新闻报道的文本部分和你的查询的相关性是 0.7，配图的相关性 0.5；另一篇则是文本相关性为 0.6，图片也是 0.6。那么，哪一篇报道才是你真正想要的呢？

来自主题: AI技术研报

8185 点击 2025-05-27 09:57

红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

随着基础模型的快速发展和 AI Agent 进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映 AI 的客观能力正变得越来越困难。

来自主题: AI技术研报

8675 点击 2025-05-27 09:50

说句话就能飞！北航发布语言交互的无人机控制模型

一句话就能让无人机起飞？

来自主题: AI技术研报

8895 点击 2025-05-26 17:10

喝点VC｜a16z前沿洞察：AI 浪潮下的九大开发者模式

与其说有几个框架主导了整个生态系统，不如说我们将看到更多的可组合、栈特定的生成方式，其中工具和架构可以动态组合。

来自主题: AI技术研报

7023 点击 2025-05-26 17:05

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

大模型巨无霸体量，让端侧部署望而却步？华为联手中科大提出CBQ新方案，仅用0.1%的训练数据实现7倍压缩率，保留99%精度。

来自主题: AI技术研报

9188 点击 2025-05-26 15:21

灵宝 CASBOT 与 CASIA 共同提出“增强物理人机协作中的人类意图估计和人机角色分配”方法

近日，机器人与自动化领域全球顶会 ICRA 2025 在美国亚特兰大开幕。

来自主题: AI技术研报

8974 点击 2025-05-26 15:02

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

语音合成（TTS）技术近十年来突飞猛进，从早期的拼接式合成和统计参数模型，发展到如今的深度神经网络与扩散、GAN 等先进架构，实现了接近真人的自然度与情感表达，广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

来自主题: AI技术研报

7658 点击 2025-05-26 14:56

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽

2023年，业界还在卷Scaling Law，不断突破参数规模和数据规模时，微软亚洲研究院张丽团队就选择了另一条路径。

来自主题: AI技术研报

6631 点击 2025-05-26 14:35

人类打辩论不如GPT-4？！Nature子刊：900人实战演练，AI胜率64.4%，还更会说服人

只需知道6项个人信息，GPT-4就有可能在辩论中打败你？！

来自主题: AI技术研报

9627 点击 2025-05-26 11:13

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

AI是否真正在「思考」乃至产生意识，正成为科学和哲学交汇的核心议题。前OpenAI负责人翁荔认为，增加模型的「思考时间」有助突破复杂推理瓶颈；哈佛等机构则指出思维链可能导致「降智」；而生物学家Mallavarapu断言数字计算机永不可能拥有意识。

来自主题: AI技术研报

9405 点击 2025-05-26 10:43

Qwen3-0.6B 能击败 Bert 吗？

新增 Qwen3-0.6B 在 Ag_news 数据集 Zero-Shot 的效果。新增 Qwen3-0.6B 线性层分类方法的效果。

来自主题: AI技术研报

9539 点击 2025-05-26 10:14

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

8173 点击 2025-05-26 09:59

没有银弹，没有免费午餐！KtR用算法思维重构Multi-Agent设计

1986年，图灵奖得主Fred Brooks在软件工程领域提出了著名的"没有银弹"理论：没有任何一种技术或方法能够独自带来软件工程生产力的数量级提升。近四十年后，这个深刻洞察在AI领域再次得到验证——你是否也曾经历过这样的挫折：

来自主题: AI技术研报

6060 点击 2025-05-26 09:50

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

9463 点击 2025-05-25 16:22

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

围棋因其独特的复杂性和对人类智能的深刻体现，可作为衡量AI专业能力最具代表性的任务之一。

来自主题: AI技术研报

9296 点击 2025-05-25 16:03

统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

现有的数据合成方法在合理性和分布一致性方面存在不足，且缺乏自动适配不同数据的能力，扩展性较差。

来自主题: AI技术研报

7873 点击 2025-05-25 15:42

全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

就在刚刚，世界首个AI科学家天团首个成果重磅发布——治疗失明的新药被发现了，而且仅仅用时2.5个月！

来自主题: AI技术研报

8910 点击 2025-05-25 15:29

AI技术研报-这里有最前沿的人工智能技术解读

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

Meta「轻量级」KernelLLM颠覆GPU内核生成，8B参数碾压GPT-4o

One RL to See Them All？一个强化学习统一视觉-语言任务！

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题，登HuggingFace热榜

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

扩散语言模型九倍推理加速！上海交大：KV Cache并非自回归模型的专属技巧

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

红杉中国xbench全球首发，AI智能体真实战力揭榜！

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」机制

3步轻松微调Qwen3，本地电脑就能搞，这个方案可以封神了！【喂饭级教程】

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

99%的人都理解错了，AI Agent ≠ Agentic AI，康奈尔大学发33页论文澄清关键区别。

TPU vs GPU: 2025年会有何不同？

这样更公平：用jina-reranker-m0为多模态文档打分重排

红杉中国发布 xbench，首个由投资机构打造的 AI 基准测试

说句话就能飞！北航发布语言交互的无人机控制模型

喝点VC｜a16z前沿洞察：AI 浪潮下的九大开发者模式

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

灵宝 CASBOT 与 CASIA 共同提出“增强物理人机协作中的人类意图估计和人机角色分配”方法

ACL 2025 高分接收 | 高感情语音技术：逻辑智能小语种TTS破局之道

她如何把“系统2”带给了大模型 ｜对话微软亚洲研究院张丽

人类打辩论不如GPT-4？！Nature子刊：900人实战演练，AI胜率64.4%，还更会说服人

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

Qwen3-0.6B 能击败 Bert 吗？

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

没有银弹，没有免费午餐！KtR用算法思维重构Multi-Agent设计

AI在「赚钱锦标赛」夺冠，比人类还会做生意！躺赚时代要来了？

大模型首次打破围棋思维「黑盒」，打通科学发现新路径！上海AI Lab发布新一代InternThinker

统计可控数据合成！新框架突破大模型数据生成局限，麦吉尔大学团队推出LLMSynthor

全球第一AI科学家天团，首战封神！2.5个月找到治盲新药，医学圈震撼

她如何把“系统2”带给了大模型｜对话微软亚洲研究院张丽