
推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改
推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。
DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。
当整个人工智能行业都在为「如何给程序员打造更快的马」而疯狂投入时,一支特立独行的团队选择「直接去造汽车」。
6月27日,“正和岛2025案例共学年会暨AI+先行者创新大集”在合肥继续进行,本次大会以“向新力”为主题,千余位企业家共同探讨AI时代下的组织变革与商业格局。
最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了",这些文章认为随着模型变得越来越智能,精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论:prompt不仅没有死,反而是理解大模型最重要的科学工具。
最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。
当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。
就在刚刚,Ilya出现了!他大义凛然发文,自封为SSI唯一CEO,而Daniel Levy将担任总裁。要实现SSI的梦想,多少钱都不卖。
在 AI 工具风靡开发圈之前,一批经验丰富的资深程序员,对它们始终保持警惕。这些人,包括 Flask 作者 Armin Ronacher(17 年开发经验)、PSPDFKit 创始人 Peter Steinberger(17 年 iOS 和 macOS 开发经验),以及 Django 联合作者 Simon Willison(25 年编程经验)。然而,就在今年,他们的看法都发生了根本转变。
智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。
阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。
AI非上云不可、非集群不能?万字实测告诉你,32B卡不卡?70B是不是智商税?要几张卡才能撑住业务? 全网最全指南教你如何用最合适的配置,跑出最强性能。
离谱! 一群AI初创公司竟然集体控诉:我们被一个印度老哥骗了。这个名叫Soham Parekh的人,在隐瞒真实情况下进行远程兼职,最多一次打了五份工。
一次性揭秘Gemini多模态技术!就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。
谁曾想,AI竟能实时生成GTA级大作。刚刚,谷歌、英伟达等机构联手,震撼发布全球首款AI原生UGC游戏引擎——Mirage,没有预设关卡,一句话即生游戏,超长十分钟沉浸式体验
OpenRouter 又上新神秘模型了,支持 100 万 token 上下文,猜猜是谁家的。 刚刚,OpenRouter 上出现了一个神秘模型,该模型被命名为「Cypher Alpha」。其可以免费使用,100 万 token 上下文,还具有推理能力。
今天,百度AI Day上双杀全场!自研多模态大模型MuseSteamer携「绘想」平台重磅上线,视频创作直接杀进电影级AI时代。同时,百度搜索迎十年最大改版,体验全面开挂。
由 Scout RFP 创始团队打造的,采购软件初创企业 Levelpath 近日完成 5500 万美元 B 轮融资,本轮由 Battery Ventures 领投。
一个优秀AI产品背后肯定有一个很能打的原始团队。 经过2025前半年的厮杀,我基本有这样的一个判断:目前市面上八成的Agent产品会草草收场或者归于沉寂。 同时Lovart是Liblib母公司全力支持的出海产品,liblib本身也具有社区,设计,技术的基因。
刚刚,网页设计工具开发商 Figma 向美国证券交易委员会(SEC)提交文件,申请首次公开募股(IPO)。该公司在招股书提及 “人工智能(AI)” 超 150 次,既将其描述为“创意加速器”,也视其为 “潜在威胁”。
让马斯克秒变带货主播。
上个月,微软分享了将 VS Code 打造成开源 AI 编辑器的计划。今天,微软在 VS Code 官网表示已经达成了第一个里程碑:GitHub Copilot Chat 扩展程序现已在 GitHub 上根据 MIT 许可证 开源。
在这个万物皆可AI的时代,教育自然也不例外。在智能化、个性化学习体验等多重需求的驱动下,人工智能与教育行业正在进行一场盛大的双向奔赴。
根据 Menlo Ventures 最新发布的《2025 年消费者 AI 现状报告》,全球已有 18 亿用户使用 AI 产品,付费转化率 3% 左右。行业领头羊 ChatGPT ,拥有 8 亿月活用户,付费转化率约 5%。C 端场景基数大且有一定的付费转化率,部分产品商业化渐入佳境。
MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛:ChatGPT少量微调即获第二,开源Llama更胜一筹,凭提示词精准追踪卫星、节省燃料,更是0%失败率,验证AI小数据高效与自主航天可行,为未来的太空漫游铺路。
让游戏行业真正成为创意产业,而不是劳动密集型产业。
AI 领域最近盛行一个观点:AI 下半场已经开始,评估将比训练重要。而在硬件层级上,我们也正在开始进入一个新世代。
马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到2.0时期。和这对欢喜冤家类似的,是国外出版商集团和AI巨头之间的相爱相杀——一方面有大出版商要和AI公司合作,另一方面也有出版商誓死要把AI巨头告破产。
如果说硅谷最近有什么产品能真正给大家带来那种珍贵的 aha moment,语音输入产品 Wispr Flow 就是其中之一。
AI 对医疗行业的价值,比其他行业可能都要更大。空气只有在失去时才最重要。 健康也是如此,当体检报告亮出红灯,或者遇到一场突如其来的病症,健康的珍贵才会被意识到。