AI资讯新闻榜单内容搜索-o3

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: o3
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

来自主题: AI技术研报
6676 点击    2025-07-11 17:12
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯
5484 点击    2025-07-09 12:10
o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。

来自主题: AI资讯
5647 点击    2025-07-01 16:15
Recap | Prompt实战全景图:探索AI在编程、教育、创作、音乐中的可能性

Recap | Prompt实战全景图:探索AI在编程、教育、创作、音乐中的可能性

Recap | Prompt实战全景图:探索AI在编程、教育、创作、音乐中的可能性

MT Park 的第12场AI分享会顺利进行!~🎉 感谢向阳乔木老师非常细致地分享了: 他探索 Prompt 的多场景实践,从 Cursor、Windsurf 等 vibe 编程工具,到 Veo3 的视频生成,覆盖编程、教育、内容创作等多个方向,带你快速上手 AI 最实用的玩法。

来自主题: AI资讯
8258 点击    2025-07-01 10:46
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
8300 点击    2025-06-27 10:03
坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

自年初起,DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世,展现出令人惊叹的智能水平,但它们为什么突然变得这么聪明?东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯
5726 点击    2025-06-21 13:01
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题

好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

来自主题: AI资讯
8035 点击    2025-06-19 11:03
微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

微软已为Agent悄然调转船头,当大厂都在卷“通用Agent”

您有没有这样的体验?一天的工作里,您可能用GPTo3写了个方案,然后切换到Cursor或者Trae里写代码,接着又打开Notion或者飞书整理文档。每个工具都挺聪明,但它们彼此之间就像生活在平行宇宙——写方案的GPT不知道您后来写了什么代码,写代码的Cursor也不清楚您的整体规划是什么。

来自主题: AI技术研报
6406 点击    2025-06-18 10:36
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限

来自主题: AI技术研报
8330 点击    2025-06-16 17:26
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3

上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。

来自主题: AI技术研报
8265 点击    2025-06-16 17:04