3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。
当大模型把人类曾经的终极考题变成日常练习,AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进,验证答案的本事却成了拖后腿的短板。 为此,上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。
AI对话技术最初用于年轻人整蛊父母的声音克隆,但老年人主动用作“情感拐杖”缓解孤独,带来安全倾诉环境。心理咨询师警告AI可能导致即时反馈成瘾、替代真实关系,削弱现实冲突应对力,类似《her》电影困境;AI谄媚性模糊是非,影响判断力。技术初衷高效连接需求,却简化人际复杂本质。
美国四家科技巨头在AI领域资本开支远超中国,2024年1.7万亿人民币 vs 中国6300亿,2025年差距扩大至2.5万亿 vs 5000亿。中国公司优先分红回购,AI采用率低(15% vs 美国85%),技术债积累,网络效应加剧中美差距,中国大厂被边缘化。
备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。
人工智能引领第四次科技革命,是当前最火的、最具前景、最具爆发力的科技赛道。进入到2025年,发生了什么新的变化?中国人工智能正告别“百模大战”的规模竞赛,向以DeepSeek等六小虎为代表的头部大模型集中。AI发展的核心,从追求模型“可用”转向实现场景的“好用”。
昨天是个热闹的日子,OpenAI 和 Anthropic 几乎在同一时间发布了自家的新款模型:前者是自 GPT-2 以来重新开源的两款模型 gpt-oss(120b 和 20b),后者是 Claude 系列最强的 Opus 4.1。
自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。
2023年,当整个AI行业都在为“最强大模型”争得头破血流时,亚马逊云科技却洞察到一个关键事实:AI的价值不在于谁的模型最强大,而在于能否为不同场景选择最适合的模型。
强化学习(RL)范式虽然显著提升了大语言模型(LLM)在复杂任务中的表现,但其在实际应用中仍面临传统RL框架下固有的探索难题。
一个半小时之前,Ghat GPT 5,千呼万唤始出来,然后端了许多公司。刚刚研读了 GPT5 完整技术文档,先分享一下技术细节。刚刚研读了 GPT5 完整技术文档,先分享一下技术细节。