AI资讯新闻榜单内容搜索-模型训练

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

10274 点击 2025-10-28 14:56

首个地球科学智能体Earth-Agent来了，解锁地球观测数据分析新范式

当强大的多模态大语言模型应用于地球科学研究时，它面临着无法忽视的「阿克琉斯之踵」

来自主题: AI技术研报

8858 点击 2025-10-28 14:45

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

近期，DeepSeek-OCR提出了“Vision as Context Compression”的新思路，然而它主要研究的是通过模型的OCR能力，用图片压缩文档。

来自主题: AI技术研报

9238 点击 2025-10-28 14:28

新型「验证码」诞生？这张图让 ChatGPT、Claude、Gemini 都翻了车

人眼秒懂，AI抓瞎！网友用光学错觉玩坏大模型，全网百万人围观。

来自主题: AI资讯

7213 点击 2025-10-28 14:17

相机参数秒变图片！新模型打通理解生成壁垒，支持任意视角图像创作

能看懂相机参数，并且生成相应视角图片的多模态模型来了。

来自主题: AI技术研报

4565 点击 2025-10-28 13:57

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

具身智能是近年来非常火概念。一个智能体（比如人）能够在环境中完成感知、理解与决策的闭环，并通过环境反馈不断进入新一轮循环，直至任务完成。这一过程往往依赖多种技能，涵盖了底层视觉对齐，空间感知，到上层决策的不同能力，这些能力便是广义上的具身智能。

来自主题: AI技术研报

6650 点击 2025-10-28 13:44

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

8593 点击 2025-10-28 10:50

喝点VC｜YC对谈Anthropic预训练负责人：预训练团队也要考虑推理问题，如何平衡预训练和后训练仍在早期探索阶段

预训练的核心是推动损失函数下降，这是我们一直追求的唯一目标。

来自主题: AI资讯

9127 点击 2025-10-28 09:49

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

近日，来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报

9635 点击 2025-10-28 09:40

数据集蒸馏，连发两篇顶会！10%样本实现全量性能，鲁棒不失真

数据集蒸馏是一种用少量合成数据替代全量数据训练模型的技术，能让模型高效又节能。WMDD和GUARD两项研究分别解决了如何保留原始数据特性并提升模型对抗扰动能力的问题，使模型在少量数据上训练时既准确又可靠。

来自主题: AI技术研报

9723 点击 2025-10-27 17:16