AI资讯新闻榜单内容搜索-语言模型

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

7863 点击 2025-08-10 13:29

扩散LLM推理新范式：打破生成长度限制，实现动态自适应调节

随着 Gemini-Diffusion，Seed-Diffusion 等扩散大语言模型（DLLM）的发布，这一领域成为了工业界和学术界的热门方向。但是，当前 DLLM 存在着在推理时必须采用预设固定长度的限制，对于不同任务都需要专门调整才能达到最优效果。

来自主题: AI资讯

8602 点击 2025-08-09 11:16

从Debugger到Developer : 低代码时代新基准NoCode-bench，SWE-Bench作者力荐

当前，大型语言模型（LLM）在软件工程领域的应用日新月异，尤其是在自动修复 Bug 方面，以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而，软件开发远不止于修 Bug，功能开发与迭代才是日常工作的重头戏。

来自主题: AI技术研报

8385 点击 2025-08-08 17:01

AI 科普丨都2025年了，人们到底在用AI做什么？国外大牛总结了100个案例

近一年来，围绕人工智能（AI）、生成式 AI（GenAI）和大语言模型（LLM）的炒作愈演愈烈，大众的兴趣翻了一番，针对 AI 的投资激增，各国政府也采取了更加明确的立场。根据一些人的说法，AI 与人类的未来息息相关。

来自主题: AI资讯

8193 点击 2025-08-08 12:41

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

来自主题: AI技术研报

9848 点击 2025-08-08 11:22

字节&MAP重塑大模型推理算法优化重点，强化学习重在高效探索助力LLM提升上限

强化学习（RL）范式虽然显著提升了大语言模型（LLM）在复杂任务中的表现，但其在实际应用中仍面临传统RL框架下固有的探索难题。

来自主题: AI资讯

8349 点击 2025-08-08 11:06

人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究

近期，基于大语言模型的智能体（LLM-based agent）在学术界和工业界中引起了广泛关注。对于智能体而言，记忆（Memory）是其中的重要能力，承担了记录过往信息和外部知识的功能，对于提高智能体的个性化等能力至关重要。

来自主题: AI技术研报

7992 点击 2025-08-07 17:03

爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰

AI国际象棋对抗？这次玩真的！谷歌Kaggle推出首届全球AI象棋争霸赛，八款顶级语言模型正面对抗，胜负只在一步之间！

来自主题: AI资讯

9752 点击 2025-08-07 12:05

a16z重磅预测：Vibe coding赢者通吃？错了，垂直专业化才是未来

你有没有发现，AI 应用生成平台们正在走向一条与大家预期完全不同的路？很多人原本以为这会是一场血腥的零和游戏，大家会在价格战中厮杀到底，最终只剩一家独大。但现实却让人意外：这些平台不但没有互相厮杀，反而开始各自寻找差异化的定位，在不同的细分市场中共存共荣。这让我想起了大语言模型市场的发展轨迹，同样出人意料，同样充满启发。

来自主题: AI资讯

9009 点击 2025-08-07 11:48

一手实测OpenAI新开源的GPT OSS，o1和GPT-4o都要过气了。

gpt-oss-120b 和 gpt-oss-20b OpenAI终于把开源的模型放出来了。 gpt-oss系列也是自GPT2以来，OpenAI首次开源的大语言模型。

来自主题: AI产品测评

10766 点击 2025-08-06 17:08