1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!
CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!
一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。
继DeepSeek 之后,一款由国内开发的通用AI Agent产品也引发热议——
知名风险投资公司 Andreessen Horowitz (a16z) 周四刚刚发布了新报告。报告发现,ChatGPT 用了 9 个月的时间从 2023 年 11 月的每周 1 亿活跃用户增长到 2024 年 8 月的 2 亿,但现在该应用程序只用了不到六个月的时间就再次将这一数字翻了一番。
当模型复杂度增加到一定程度后,模型开始对训练数据中的噪声和异常值进行拟合,而不是仅仅学习数据中的真实模式。这导致模型在训练数据上表现得非常好,但在新的数据上表现不佳,因为新的数据中噪声和异常值的分布与训练数据不同。
AI Coding 是我们长期关注的领域,在这个领域中我们已经介绍过 bolt.new、Cursor 等公司,Lovable 是最新快速崛起的一家公司。Lovable 产品自发布以来就展示了惊人的增长速度,ARR 几乎每周增长 100 万美元,3 个月 ARR 就从 0 增长至 1700 万美元,付费用户数高达 3 万多人,成为欧洲历史上增速最快的初创企业。
他们为ChatGPT/AlphaGo奠定基石
刚刚,OpenAI被爆三类智能体定价!价格从每月2k美元到20k美元不等,用于自动化编码和博士级别的研究等任务。此前,美国国家实验室使用OpenAI的o1模型来解决了与核聚变相关的问题。
这项最新研究,由北京师范大学和南开大学的研究者们共同完成,于2025年发表于Internet Interventions 上,你只需要写一封信,写给自己,然后让ChatGPT 来给你一点反馈。不用约时间、也不用担心费用,只要在屏幕上敲下几行字,焦虑竟然真的能减少。
你能让 ChatGPT 画一朵玫瑰吗?