AI资讯新闻榜单内容搜索-o3

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

8319 点击 2025-07-09 12:10

o3通关「俄罗斯方块」，碾压Gemini夺冠！UCSD新基准击碎宝可梦

UCSD等推出Lmgame Bench标准框架，结合多款经典游戏，分模块测评模型的感知、记忆与推理表现。结果显示，不同模型在各游戏中表现迥异，凸显游戏作为AI评估工具的独特价值。

来自主题: AI资讯

8313 点击 2025-07-01 16:15

Recap | Prompt实战全景图：探索AI在编程、教育、创作、音乐中的可能性

MT Park 的第12场AI分享会顺利进行！~🎉 感谢向阳乔木老师非常细致地分享了：他探索 Prompt 的多场景实践，从 Cursor、Windsurf 等 vibe 编程工具，到 Veo3 的视频生成，覆盖编程、教育、内容创作等多个方向，带你快速上手 AI 最实用的玩法。

来自主题: AI资讯

11359 点击 2025-07-01 10:46

突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR（Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报

10934 点击 2025-06-27 10:03

坏了！R1的秘密被Deepmind发现了！「啊哈时刻」首次被披露，现已可量化！

自年初起，DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世，展现出令人惊叹的智能水平，但它们为什么突然变得这么聪明？东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯

7959 点击 2025-06-21 13:01

大模型全员0分！谢赛宁领衔华人团队，最新编程竞赛基准出炉，题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没，通通0分。谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯

11110 点击 2025-06-19 11:03

微软已为Agent悄然调转船头，当大厂都在卷“通用Agent”

您有没有这样的体验？一天的工作里，您可能用GPTo3写了个方案，然后切换到Cursor或者Trae里写代码，接着又打开Notion或者飞书整理文档。每个工具都挺聪明，但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码，写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报

9429 点击 2025-06-18 10:36

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏，也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏，而且表现还都不错，直接突破了benchmark上限

来自主题: AI技术研报

11252 点击 2025-06-16 17:26

高考数学斩获139分！小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕！在人工智能领域，各家大模型向数学卷发起了挑战。

来自主题: AI技术研报

11060 点击 2025-06-16 17:04

12年博士研究，AI两天爆肝完成！科研效率狂飙3000倍，惊动学术圈

AI两天爆肝12年研究，精准吊打人类！多大、哈佛MIT等17家机构联手放大招，基于GPT-4.1和o3-mini，筛选文献提取数据，效率飙3000倍重塑AI科研工作流。

来自主题: AI技术研报

10736 点击 2025-06-16 09:55