AI资讯新闻榜单内容搜索-AlphaGo

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

来自主题: AI技术研报

7655 点击 2025-01-11 11:22

从「天才少年」到被迫「追赶者」：诺奖得主、AlphaGo之父Demis Hassabis眼中的AI未来

这就是 Google DeepMind 的「DeepMind 部分」——重视它，是保护它的第一步。

来自主题: AI资讯

8686 点击 2024-12-27 16:04

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

自我博弈，很神奇吧？

来自主题: AI技术研报

4923 点击 2024-12-02 14:01

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

复刻OpenAI o1推理大模型，开源界传来最新进展： LLaMA版o1项目刚刚发布，来自上海AI Lab团队。

来自主题: AI技术研报

5114 点击 2024-11-05 15:12

Anthropic挖走DeepMind强化学习大牛、AlphaGo核心作者Julian Schrittwieser

从 AlphaGo、AlphaZero 、MuZero 到 AlphaCode、AlphaTensor，再到最近的 Gemini 和 AlphaProof，Julian Schrittwieser 的工作成果似乎比他的名字更广为人知。

来自主题: AI资讯

8951 点击 2024-10-29 18:00

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。

来自主题: AI资讯

8528 点击 2024-09-22 13:46

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。

来自主题: AI技术研报

7705 点击 2024-09-15 14:41