Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码最强编程模型让位了。 但没有换人,依然是Claude。 新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。
最强编程模型让位了。 但没有换人,依然是Claude。 新发布的Claude Sonnet 4.5,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。
Alex 是一家开发 AI 招聘官的初创公司,该公司表示其技术已帮助企业进行视频面试和电话初筛。约18 个月前联合创办 Alex 的王亚伦(图中下排居中)向 TechCrunch 透露,该公司的语音 AI 工具能在求职者投递简历后立即开展自主面试。"我们的 AI 招聘官每天进行数千场面试,帮助求职者进入全球顶尖企业工作,"他说道。
一家来自印度苏拉特的创业公司 Rocket.new 却声称他们解决了这个问题。不仅如此,他们还刚刚完成了1500万美元的种子轮融资,由Salesforce Ventures和Accel联合领投,Together Fund跟投。更令人惊讶的是,这家公司从beta版上线到完成融资仅用了3个月时间,目前已经拥有40万用户,分布在180个国家,年收入达到450万美元。
就在最新一期的SuperCLUE中文大模型通用基准测评中,各个AI大模型玩家的成绩新鲜出炉。DeepSeek-V3.1-Terminus-Thinking openPangu-Ultra-MoE-718B Qwen3-235B-A22B-Thinking-2507
今年 8 月,GPT-5 发布,其在多个任务和基准上都表现卓越,但几乎和人世间的所有事物一样,并不是所有人都满意。尤其是 GPT-5 发布后「OpenAI 移除 ChatGPT 中模型选择器」的做法更是备受诟病(尤其是移除了情感表达更佳的 GPT-4o),甚至引发了诸多用户的「网上请愿」,详见我们的报道《用户痛批 GPT-5,哭诉「还我 GPT-4o」,奥特曼妥协了》。
百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。 7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。
当所有人还在为参数内卷时,智能体真正的决胜点已经转向了速度与成本。浪潮信息用两款AI服务器直接给出了答案:一个将token生成速度干到10毫秒以内,一个把每百万token成本打到1元时代。
结合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。陈丹琦新作来了。他们提出了一个结合RLHF和RLVR优点的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励思维的强化学习)。
老天奶,奥特曼对GPT的谈论,都跨越好几代来到GPT-8了!最近他在一档节目上,和量子计算奠基人戴维・多伊奇(David Deutsch)展开对话,针对两人存在分歧的“AI能否发展为具备意识的超级智能”议题,奥特曼搬出GPT-8来试图说服多伊奇:
明星创业公司Thinking Machines,第二篇研究论文热乎出炉!公司创始人、OpenAI前CTO Mira Murati依旧亲自站台,翁荔等一众大佬也纷纷转发支持:论文主题为“Modular Manifolds”,通过让整个网络的不同层/模块在统一框架下进行约束和优化,来提升训练的稳定性和效率。