
GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防赢了的才是「GPT-5」。 GPT-5 迟迟未现身,网友们开始制作各种梗图「吐槽」其实,这几天关于 GPT-5 的传言就没消停。先是有网友在 macOS ChatGPT 应用中发现了 GPT-5-Auto 和 GPT-5-Reasoning 模型的踪迹:
赢了的才是「GPT-5」。 GPT-5 迟迟未现身,网友们开始制作各种梗图「吐槽」其实,这几天关于 GPT-5 的传言就没消停。先是有网友在 macOS ChatGPT 应用中发现了 GPT-5-Auto 和 GPT-5-Reasoning 模型的踪迹:
网友:Deep Think 简直太疯狂了。本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。
夜晚,后院监控视角下,10只小兔子在蹦蹦床。 就这么一条时长8s、平平无奇的视频,在TikTok上单条播放量超过5亿。
《Physics of Language Models(语言模型物理学)》,正是将AI研究带入“物理学范式”的项目,由Meta FAIR研究院的朱泽园概念化发起,并统筹设计。
当24岁的AI天才Matt Deitke拒绝扎克伯格第一次1.25亿美元的邀约时,他或许没料到自己会成为科技巨头争夺战中的主角。最终,小扎亲自登门,将报价提高到四年2.5亿美元,第一年即支付1亿美元,成功挖角这位AI新星。AI人才市场正如NBA巨星交易般火爆,年轻研究员们手握亿级合同,背靠秘密顾问团与巨头博弈。
中国首个推出兼容E2B接口Agent沙箱的公司。7月26日,2025世界人工智能大会(WAIC)现场人头攒动。在科技要素拉满的会场内,几乎每个展台都在讨论大模型和AI Agent。
你刷的每一条短视频,背后都隐藏着推荐算法的迭代与革新。 作为最新成果,字节跳动的算法团队提出的全新推荐排序模型架构RankMixer,在兼顾算力利用率的同时,实现了模型效果的可扩展性。
Deep Cogito,一家鲜为人知的 AI 初创公司,总部位于旧金山,由前谷歌员工创立,如今开源的四款混合推理模型,受到大家广泛关注。
这一次,“不会”竟成了大模型的高光时刻。 虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了“高智商的诚实”。
每次和我妈打电话,她都会不可避免地提一嘴:「少吃点外卖。」 以前我觉得这是典型中年父母的唠叨,不太了解年轻人的生活方式。现在我懂了,她才是早就看穿一切的预言家。
新加坡深度科技初创公司SixSense 开发出一款人工智能平台,可帮助半导体制造商实时预测并检测生产线上潜在的芯片缺陷。该公司已在A 轮融资中筹集 850 万美元,使其总融资额达到约 1200 万美元。本轮融资由 Peak XV 旗下 Surge 基金(原红杉印度及东南亚)领投,Alpha Intelligence Capital、FEBE 等机构跟投。
尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。
现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。
昨夜,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,Gemini 2.5 Deep Think 模型在今年的国际数学奥林匹克竞赛 (IMO) 上夺得金牌。
随着人工智能技术的快速发展,大语言模型在自然语言处理领域引发了深刻变革。大语言模型在实际应用中的使用越来越广泛,这些模型通常部署在云原生的基础设施上,需要复杂的流量管理机制以确保服务的稳定性、性能、可扩展性和成本效益。在 Kubernetes(K8S)这一容器编排标准中,现有的 Ingress 组件的流量转发机制提供了基于主机名和请求路径的基本流量路由功能。
在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。
视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
上下文学习(In-Context Learning, ICL)、few-shot,经常看我文章的朋友几乎没有人不知道这些概念,给模型几个例子(Demos),它就能更好地理解我们的意图。但问题来了,当您精心挑选了例子、优化了顺序,结果模型的表现还是像开“盲盒”一样时……有没有可能,问题出在一个我们谁都没太在意的地方,这些例子,到底应该放在Prompt的哪个位置?
谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。谷歌拿下IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。
ChatGPT用多了会变傻?官方回应来了! OpenAI教育主管Leah Belsky明确表示:AI本质上是一个工具,关键在于如何使用它。
刚刚,硅谷爆出新料:OpenAI企业市场份额断崖式下跌,Anthropic全面反超!
一个 Agent(智能体)不够用?Manus 干脆给你拉来 100 个。 今天凌晨,Manus 推出了一项新功能:Manus Wide Research。这项功能的核心亮点在于,用户只需一键即可开启大规模并行 Agent 协作,轻松处理原本需要耗费数小时、动用数百个数据源的复杂调研任务。
GPT-5更近了!今天,神秘模型Horizon Alpha火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI核心大脑专访坦言模型还有瓶颈,但坚信Scaling Law没有尽头。
就在一夜之间,用 AI 帮忙搞科研,不是再只是想想了。 最近,科研圈里越来越多的人在讨论一种叫 SciMaster 的「AI 科学助手」,有让它做实验的,有让他帮忙开题的,还有跟他聊科幻的。
Ilya之后,谁是支撑起OpenAI研究的人? GPT-5发布前夕,奥特曼公开了他背后的两位90后得力干将。
中国在人工智能领域已经成为全球竞争的重要力量。根据斯坦福 2025 年 AI 指数报告,美国虽然仍领先于顶级模型数量,但中国正在迅速缩小差距 —— 在 MMLU、HumanEval 等基准测试中的差距已从几乎双位数下降到几乎持平。
近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现,但在通用多模态数据上的应用研究仍有待深入。
用扩散模型写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。
7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型。
又一个SOTA基础模型开源,而且依然是国产。 刚刚,阶跃星辰兑现了WAIC上的承诺,将最新多模态推理模型Step-3正式开源! 在MMMU等多个多模态榜单上,它一现身就取得了开源多模态推理模型新SOTA的成绩。