AI资讯新闻榜单内容搜索-训练

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

7178 点击 2025-04-22 08:39

就在昨天，深耕语音、认知智能几十年的科大讯飞，发布了全新升级的讯飞星火推理模型 X1。不仅效果上比肩 DeepSeek-R1，而且我注意到一条官方发布的信息——基于全国产算力训练，在模型参数量比业界同类模型小一个数量级的情况下，整体效果能对标 OpenAI o1 和 DeepSeek R1。

来自主题: AI资讯

10336 点击 2025-04-22 08:29

o3和o4-mini视觉推理突破，竟未引用他人成果？一名华盛顿大学博士生发出质疑，OpenAI研究人员对此回应：不存在。

来自主题: AI技术研报

8241 点击 2025-04-21 16:16

采样多就一定准吗？研究人员用实验告诉你：是的，而且超乎想象！基于采样的搜索不仅能在并行处理中大展身手，还通过隐式扩展让验证更精准。

来自主题: AI资讯

6786 点击 2025-04-21 14:22

Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息，最大限度地减少知识结构化带来的信息丢失，从而减少大型语言模型（LLM）的幻觉。

来自主题: AI技术研报

7374 点击 2025-04-21 10:23

近期，大模型智能体（Agent）的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及，还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议，都预示了 AI Agent 的巨大潜力。

来自主题: AI技术研报

8365 点击 2025-04-21 09:28

还在用搜索和规则训练AI游戏？现在直接「看回放」学打宝可梦了！德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体，不靠规则、没用启发式算法，纯靠47.5万场人类对战回放训练出来，居然打上了Pokémon Showdown全球前10%！

来自主题: AI技术研报

10346 点击 2025-04-20 22:19

具身智能的突破离不开高质量数据。目前，具身合成数据有两条主要技术路线之争：“视频合成+3D重建”or “端到端3D生成”。英伟达在CES 2025指出“尚无互联网规模的机器人数据”，自动驾驶已具备城市级仿真，但家庭等复杂室内环境缺乏3D合成平台。

来自主题: AI技术研报

9098 点击 2025-04-20 21:42

Nemotron-H模型混合了Transformer和Mamba架构，使长文本推理速度提升3倍，同时还能保持高性能，开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术，进一步提高了20%推理速度

来自主题: AI产品测评

9348 点击 2025-04-20 20:47

推理模型与普通大语言模型有何本质不同？它们为何会「胡言乱语」甚至「故意撒谎」？Goodfire最新发布的开源稀疏自编码器（SAEs），基于DeepSeek-R1模型，为我们提供了一把「AI显微镜」，窥探推理模型的内心世界。

来自主题: AI技术研报

7414 点击 2025-04-19 15:29