OpenAI夺金IOI,但输给3位中国高中生

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI夺金IOI,但输给3位中国高中生
6986点击    2025-08-12 17:34

刚刚,OpenAI官宣:IOI金牌收入囊中


其推理模型在今年IOI线上竞赛中成绩刷新纪录:


总分533.29,在全球330名人类选手中总排名位列第六;而在所有AI参赛者中,稳居第一


PS:AI没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高级中学)、陈昕阳(杭州第二中学)。


OpenAI夺金IOI,但输给3位中国高中生


有意思的是,OpenAI表示,这次并未为IOI训练新的参赛模型,而是集成了多个通用推理模型参赛。


并且这个夺金系统和前不久OpenAI自称在IMO中夺金的,还是同一个。


OpenAI夺金IOI,但输给3位中国高中生


从成绩上来说,此AI推理系统相比去年模型在IOI上的表现进步了不止一点半点。


IOI 2024 OpenAI还专门在o1基础上进行针对性训练,最终得到的o1-ioi,在严格的比赛规则下仅拿到213分


今年靠通用模型直接夺金,排名大跃升,网友直呼震撼。


OpenAI夺金IOI,但输给3位中国高中生


不过,前段时间OpenAI自称模型拿下IMO金牌一事引发不少争议,这次面对IOI的成绩,网友们明显谨慎了许多:


到底是真的很了不起的成就,还是又一个营销噱头……


OpenAI夺金IOI,但输给3位中国高中生


与此同时,还有不少网友喊话“还我4o”。


OpenAI夺金IOI,但输给3位中国高中生


更有意思的是,马斯克突然发布了IOI Benchmark排名,结果显示Grok 4在编码方面超越GPT-5获得第一(doge)。


OpenAI夺金IOI,但输给3位中国高中生


来看这次OpenAI推理系统夺金细节。


和人类一样,5小时、50次限制


IOI(国际信息学奥林匹克竞赛)作为是全球中学生计算机科学领域的最高级别赛事,有着严苛且标准化的赛制:


参赛学生需历经2天赛程,每天在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料,最终提交C++代码方案,由隐藏测试用例自动评分。


IOI 2025总共有来自84个国家的330名参赛者参赛。满分600分,金牌分数线是438.30分,最终只有28名参赛者获得金牌


OpenAI表示他们正式参加了IOI的线上AI赛道,规则和人类参赛者一样,有5小时的时间限制50次的提交次数限制


OpenAI夺金IOI,但输给3位中国高中生


并且AI系统在竞赛过程中全程未使用互联网或检索增强生成(RAG)技术,仅能使用基础的终端工具。


具体来说,他们整合了几个强大的推理模型,生成候选程序,运行这些程序,然后提交最优解。唯一的辅助工作是:挑选要提交的尝试内容,并与竞赛API交互。


在IOI线上AI赛道中,通过API获取题目并提交解答,不会接受竞赛组织者的直接监督。


OpenAI夺金IOI,但输给3位中国高中生


OpenAI最新AI推理系统的表现超越98%的参赛者,不论是成绩还是方法上都和去年形成鲜明对比。


在IOI 2024中,OpenAI使用了o1-ioi模型,这是一个在o1基础上针对编程任务进行强化学习微调的专用模型。


o1-ioi严重依赖一套复杂且由人工设计的test-time推理策略(类似AlphaCode的人工设计的test-time推理策略),包括:


  • 为每个子任务生成10000个候选解


  • 基于模型自生成的测试用例对解法进行聚类和排序


  • 结合学习到的评分函数来筛选最终提交的50个方案


尽管投入了大量工程技巧,o1-ioi在IOI 2024中仅获得213分,排名第49百分位,与铜牌失之交臂。


One More Thing


谢赛宁团队前段时间推出了一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试——LiveCodeBench Pro。


GPT-5最新测试成绩出炉:


GPT-5 Thinking在2025年第一季度的测试组中完成了突破,是唯一一个解出难题分组的模型,而且这还不是更高级的“Thinking Pro”版本。


OpenAI夺金IOI,但输给3位中国高中生


平均响应长度方面,GPT-5超过10万token,是o3的3倍。


OpenAI夺金IOI,但输给3位中国高中生


参考链接:


[1]https://x.com/OpenAI/status/1954969035713687975


[2]https://x.com/rohanpaul_ai/status/1954992741101998099


[3]https://x.com/wenhaocha1/status/1954751124050989213


[4]https://x.com/elonmusk/status/1955047197487272362


文章来自于微信公众号“量子位”,作者是“西风”。


关键词: AI新闻 , openai , chatGPT , AI IOI金牌
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner