AI资讯新闻榜单内容搜索-模型训练

IEEE | LLM Agent的能力边界在哪？首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

LLM Agent 正以前所未有的速度发展，从网页浏览、软件开发到具身控制，其强大的自主能力令人瞩目。然而，繁荣的背后也带来了研究的「碎片化」和能力的「天花板」：多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩，整个领域仿佛一片广袤却缺乏地图的丛林。

来自主题: AI技术研报

8196 点击 2025-11-10 09:20

机器人训练，北京男大有了技能玩法

还得是大学生会玩啊（doge）！网上正高速冲浪中，结果意外发现：有男大竟找了个机器人队友？而且机器人还相当黏人（bushi~ 白天超市打工它要跟着，一看东西装好就立马乐颠颠帮忙拉小推车，上楼下楼忙个不停：

来自主题: AI技术研报

6750 点击 2025-11-09 15:38

英伟达、DeepSeek集体跟进！18个月前被忽视，如今统治AI推理

2024年，加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念，短短一年多时间，迅速从实验室概念成长为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向「模块化智能」的新时代。

来自主题: AI技术研报

10913 点击 2025-11-09 15:37

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

现有的LLM智能体训练框架都是针对单智能体的，多智能体的“群体强化”仍是一个亟须解决的问题。为了解决这一领域的研究痛点，来自UCSD和英特尔的研究人员，提出了新的提出通用化多智能体强化学习框架——PettingLLMs。支持任意组合的多个LLM一起训练。

来自主题: AI技术研报

7580 点击 2025-11-09 15:36

改掉幻觉=杀死AI？Science曝光大模型「先天死穴」

《Science》的一篇新文章指出，大模型存在一个先天难解的软肋：幻觉难以根除。AI厂商让大模型在不确定性情况下说「我不知道」，虽然有助于减少模型幻觉，但可能因此影响用户留存与活跃度，动摇商业根本。

来自主题: AI技术研报

9363 点击 2025-11-09 15:35

仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。

来自主题: AI技术研报

7622 点击 2025-11-09 15:33

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”代替“暴力记忆”

去年，谢赛宁（Saining Xie）团队发布了 Cambrian-1，一次对图像多模态模型的开放式探索。但团队没有按惯例继续推出 Cambrian-2、Cambrian-3，而是停下来思考：真正的多

来自主题: AI技术研报

8284 点击 2025-11-09 10:38

突破LLM遗忘瓶颈，谷歌「嵌套学习」让AI像人脑一样持续进化

近日，谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习，模型不再采用静态的训练周期，而是以不同的更新速度在嵌套层中进行学习，即将模型视为一系列嵌套问题的堆叠，使其能够不断学习新技能，同时又不会遗忘旧技能。

来自主题: AI技术研报

9396 点击 2025-11-09 10:25

微信、清华连续自回归模型CALM，新范式实现从「离散词元」到「连续向量」转变

众所周知，大型语言模型（LLM）的根本运作方式是预测下一个 token（词元），能够保证生成的连贯性和逻辑性，但这既是 LLM 强大能力的「灵魂」所在，也是其枷锁，将导致高昂的计算成本和响应延迟。可

来自主题: AI技术研报

7962 点击 2025-11-09 10:21

SimKO：缓解RLVR训练中的概率过度集中，优化pass@K性能

研究团队提出一种简洁且高效的算法 ——SimKO (Simple Pass@K Optimization)，显著优化了 pass@K（K=1 及 K>1）性能。同时，团队认为当前的用熵（Entropy）作为指标衡量多样性存在局限：熵无法具体反映概率分布的形态。如图 2（c）所示，两个具有相同熵值的分布，一个可能包含多个峰值，而另一个则可能高度集中于一个峰值。

来自主题: AI技术研报

7404 点击 2025-11-08 15:48