清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?
搜索
如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?
最近,OpenAI 宣布:Sora 2 进一步开放使用权限,不再需要邀请码。
如今的聊天机器人无所不能,只要是能用文字表达的内容,无论是恋爱建议、工作文书,还是编程代码,AI 都能生成,哪怕不完美。但几乎所有聊天机器人都有一个绝不会做的事:主动结束与你的对话。
「你的大脑,非常容易被操控。」Perplexity CEO Aravind Srinivas这样警告。他说AI陪伴应用太拟人、太危险,可能让人沉溺虚拟世界。可就在他发出警告之前,全球已有上千万用户在和这些AI聊天、倾诉、恋爱。AI真的在夺走现实吗?还是,它只是让我们重新定义了「真实」的样子?
没有直播,OpenAI一早放大招,让所有人猝不及防。就在刚刚,GPT-5.1正式发布,GPT-5系列重大升级版登场!一共有三个版本,目前已经上线了前两个: GPT-5.1 Instant :最常用的模型,语气更亲切、更智能,更善于遵循指令,GPT-5.1 Thinking :先进的推理模型,更易于理解,处理简单任务速度更快,处理复杂任务更具持久力。
最近,谷歌AI Studio上的一个神秘模型不仅成功识别了200多年前一位商人的「天书」账本,而且还修正了里面的格式错误和模糊表述,展现出的推理能力令历史学家震惊。
曾在英伟达身上错过2500亿美金的孙正义,如今再次用脚投票,他赌的是:AI的未来,不在于制造铲子的英伟达,而在于定义金矿的OpenAI。
在数字经济浪潮中,企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析,再到企业级决策支持,一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。
在学校里,用白色字体凑字数,原本都是土到不能再土的招数了,现在都没什么人用了。没想到,2025 年了,居然还能派上用场。
开发者最常使用的编程语言是什么?相信很多人都会不假思索地选择 Python。