AI资讯新闻榜单内容搜索-大语言模型

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

近年来，大语言模型（LLM）以其卓越的文本生成和逻辑推理能力，深刻改变了我们与技术的互动方式。然而，这些令人瞩目的表现背后，LLM的内部机制却像一个神秘的“黑箱”，让人难以捉摸其决策过程。

来自主题: AI技术研报

7043 点击 2025-06-11 14:29

在大语言模型蓬勃发展的背景下，Transformer 架构依然是不可替代的核心组件。尽管其自注意力机制存在计算复杂度为二次方的问题，成为众多研究试图突破的重点

来自主题: AI技术研报

9291 点击 2025-06-11 11:43

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

8687 点击 2025-06-10 16:18

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

8467 点击 2025-06-09 11:02

通过这份全面指南探索大语言模型(LLMs)的关键概念、技术和挑战，专为AI爱好者和准备面试的专业人士精心打造。

来自主题: AI资讯

9442 点击 2025-06-08 17:24

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

8901 点击 2025-06-07 14:20

逻辑推理是人类智能的核心能力，也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现，研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报

9834 点击 2025-06-07 10:35

首个专为ALLMs（音频大语言模型）设计的多维度可信度评估基准来了。

来自主题: AI技术研报

10929 点击 2025-06-03 15:11

大语言模型（LLMs）作为由复杂算法和海量数据驱动的产物，会不会“无意中”学会了某些类似人类进化出来的行为模式？这听起来或许有些大胆，但背后的推理其实并不难理解：

来自主题: AI资讯

6194 点击 2025-06-03 10:57

随着大语言模型 (LLM) 的出现，扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此，无论是在工业界还是学术界，探索如何扩展 Transformer 模型日益成为一种趋势。

来自主题: AI技术研报

9098 点击 2025-06-03 09:58