AI技术研报-这里有最前沿的人工智能技术解读

CVPR 2025 | CV 微调卷出天际，Mona：我小、我强、我省资源

Mona（Multi-cognitive Visual Adapter）是一种新型视觉适配器微调方法，旨在打破传统全参数微调（full fine-tuning）在视觉识别任务中的性能瓶颈。

来自主题: AI技术研报

9698 点击 2025-05-02 14:17

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。

来自主题: AI技术研报

9427 点击 2025-05-02 14:03

不要思考过程，推理模型能力能够更强丨UC伯克利等最新研究

其实……不用大段大段思考，推理模型也能有效推理！

来自主题: AI技术研报

8078 点击 2025-05-02 13:49

Windsurf团队关于Agent的认知，相当精彩

这段时间 “Agent” 成了热词，开会、聊天、朋友圈，大家都在聊。但每个人说的 “Agent” 其实都不一样，听多了反而更迷糊：究竟什么是 Agent？和我们熟悉的生成式 AI 有什么不同？这是我目前见过最清晰解释 Agent 的文章。

来自主题: AI技术研报

10167 点击 2025-05-02 10:46

DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

DeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。在普特南测试上，新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题，为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。

来自主题: AI技术研报

10560 点击 2025-05-01 22:52

400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能

来自英伟达和UIUC的华人团队提出一种高效训练方法，将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录！基于Llama3.1-Instruct打造的UltraLong-8B模型，不仅在长上下文基准测试中表现卓越，还在标准任务中保持顶尖竞争力。

来自主题: AI技术研报

9499 点击 2025-05-01 13:54

只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍

在人工智能领域，语言模型的发展日新月异，推理能力作为语言模型的核心竞争力之一，一直是研究的焦点，许多的 AI 前沿人才对 AI 推理的效率进行研究。

来自主题: AI技术研报

10182 点击 2025-04-30 18:40

当购物用上大模型！阿里妈妈首发世界知识大模型，破解两大推荐难题

在推荐、广告场景，如何利用好大模型的能力？这是个很有挑战的命题。

来自主题: AI技术研报

10038 点击 2025-04-30 18:19

GPT-4o医学知识覆盖率仅55%？腾讯优图团队发布大模型医疗能力“体检报告”

医疗大模型知识覆盖度首次被精准量化！

来自主题: AI技术研报

10971 点击 2025-04-30 17:34

CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍

训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。

来自主题: AI技术研报

8723 点击 2025-04-30 16:03

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

随着大语言模型 (LLM) 技术的迅猛发展，基于 LLM 的智能智能体在客户服务、内容创作、数据分析甚至医疗辅助等多个行业领域得到广泛应用。

来自主题: AI技术研报

9222 点击 2025-04-30 15:05

终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统

近日，无问芯穹发起了一次推理系统开源节，连续开源了三个推理工作，包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap，为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开一一解读：

来自主题: AI技术研报

10916 点击 2025-04-30 08:50