小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统谷歌丢出Gemini 3 Flash,给AI圈示范了啥叫:小孩子才做选择题,成年人当然是全都要(doge)。一个公式来形容这款新模型:Gemini 3 Flash=Pro级智能+Flash级速度+更低价格。
谷歌丢出Gemini 3 Flash,给AI圈示范了啥叫:小孩子才做选择题,成年人当然是全都要(doge)。一个公式来形容这款新模型:Gemini 3 Flash=Pro级智能+Flash级速度+更低价格。
号称满分屠榜的GPT-5.2,一发布就降智了?许多网友现身表示,似乎确实比开始弱了很多。但提前实测的网友表示,它的确很强,甚至当得起GPT-6之称!
面对谷歌攻势,OpenAI内部炸锅了。
2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。
在过去五年,AI领域一直被一条“铁律”所支配,Scaling Law(扩展定律)。它如同计算领域的摩尔定律一般,简单、粗暴、却魔力无穷:投入更多的数据、更多的参数、更多的算力,模型的性能就会线性且可预测地增长。无数的团队,无论是开源巨头还是商业实验室,都将希望孤注一掷地押在了这条唯一的救命稻草上。
陶哲轩与GPT-5 Pro这对搭档再大发神威,解决了一个3年无人解决的难题。而且是“不太在自己专业范围内”的问题:微分几何领域的开放问题。要知道,陶哲轩擅长的分析、数论、组合学等研究的往往是整数、函数、算子的性质。而微分几何更侧重于流形的性质,常用的工具也很不一样。
文心最近发布了两个模型ERNIE-4.5-21B-A3B-Thinking和X1.1 在海外开发者社群中讨论很火爆 甚至有老外称这是ta 认为的最强中国模型。 真的这么神吗?饼干哥哥做了一波实测案例,
所有人都在追GPT5的时候, 我的好朋友@水的离子积因为说了一句“略懂AI”,就被抓去河南漯河猪圈里抓猪了。。。
一起给GPT5上上强度吧! 我相信它的参数、API、纸面实力已经被扒得差不多了,所以接下来的内容先会分为总结篇,把system card、发布会、OpenAI自家技术博客、奥特曼私下说的信息做个全篇,然后从编程、写作、多模态、PPT等等给GPT犁一边,最后再总结一下GPT-5后续的一些开发计划啥的,Here we go!
GPT5更新了,简单测了几个Case。GPT5更新了,简单测了几个Case。山姆真的是营销大师。从前些天透漏的信息看,GPT5 牛逼的不行了。但实际呢?!至少在我今天的测试Case中,没一个比 Claude 4 sonnet 好!