不止修bug:Agentic Coding评测走向复杂feature交付新阶段
不止修bug:Agentic Coding评测走向复杂feature交付新阶段在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
在 Princeton 发布 SWE-Bench 之后,用真实世界代码仓库+可执行测试评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。
小雨智造预计,智能焊接机器人需求可达千万台量级,只要占据10%份额,就完全具备成为“爆品”的市场条件。
伴随多模态大模型的发展,GUI Agent正成为人机交互的新范式。
最近关于OpenClaw的事,除了我昨天说的Github登顶之外。还有另一个非常魔幻的事——就是OpenClaw收费上门安装。一次费用,几百不等。更离谱的价格也有,前段时间在群里看到的:OpenClaw安装,1.6万!?
近日,Flowith 宣布完成千万美元种子轮和种子+轮融资。种子轮为祥峰投资(Vertex Ventures)等机构,种子+轮为红杉中国种子基金、江远投资(LongRiver)等多家顶尖机构联合领投,融资资金将主要用于研发以及全球化市场拓展。
GPT-5.3 Instant不卷跑分,专治「聊天翻车」:不再动不动拒绝回答,不再满嘴说教免责,幻觉率暴降27%,写作能力也跳了一个台阶。
首Token提速2.5倍,推理成绩干翻前代大模型。
新鲜出炉的龙虾来了!
冲刺多智能体第一股,毛利率超80%。
5天时间,AI就搞定了原本需要6个月完成的菲尔兹奖级数学成果的形式化证明。
阶跃星辰Step 3.5 Flash霸榜OpenClaw调用排行,全球开发者正在“用脚投票”AI新方向。
强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。
你见过 7B 模型在拼图推理上干翻 GPT-5 吗?
当 AI agent 需要一个「家」的时候,它们没有住进独立的 App,而是搬进了聊天软件。
让AI自己写高性能GPU代码,字节Seed与清华AIR团队做到了。
Tabbit 背后的团队,是美团的光年之外 对,就是那个最早由王慧文老师创办,后来并入美团的那个光年之外
Seedance 2.0 有多火爆,这几天国内外网友分享的实测视频,或许都能略窥一二。
1 月中旬,白鲸出海受亚马逊全球开店活动邀请,前往东莞与多位卖家交流出海经验,除了此前报道过的计划用 AI 赋能家庭娱乐的音箱品牌 Ikarao,在相距不到 20分钟的车程内,另一家主打“硬核”产品的 BOSGAME 同样成绩不俗,跨境业务三年复合增长率 120%。但由于产品性质的巨大差异,专攻 PC 硬件的 BOSGAME,分享了完全不同的成长思考。
me stepping down. bye my beloved qwen.(我将卸任。再见了,我深爱的 qwen。) 3 月 4 日凌晨,阿里通义千问(Qwen)技术负责人林俊旸在 X 突然发文,向自己一手带大的开源模型项目告别。
全球最大的卡路里追踪平台 MyFitnessPal 正式宣布,已完成对后起之秀 Cal AI 的收购。CalAI,这个由高中生 Zach Yadegari 发起的创业项目也迎来阶段性的结局,收购后,产品仍将独立运营,Zach Yadegari 在内 7 名成员均将加入 MyFitnessPal。(可参见我们的置顶文章《17岁高中生做AI App,不到4个月入账百万美元,独立开发者迎来春天?》)
前段时间 AI 浏览器扎堆上线,从 OpenAI 的 Atlas 到 Perplexity Comet,国内的 QQ浏览器、夸克/千问纷纷进入赛道。浏览器这个「老古董」突然成了 AI 赛道的香饽饽。大小厂都在抢,都想占个入口位置。
Claude Code 正式上线语音模式:输入 /voice,长按空格说话,松开即完成输入。语音转录实时流入光标位置,和键盘无缝切换,转录Token完全免费。编程的下一个战场不是模型智商,而是交互方式。
昨天深夜,阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列,覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布,便在海外科技圈引发强烈反响。马斯克也在该推文下评论称:「Impressive intelligence density」(令人印象深刻的智能密度)。这股热度的背后,APPSO 也好奇,为什么这几款小模型能够激起如此大的波澜?
Claude深夜宕机,全网哀嚎一片。就在今天,美财政部官宣:全面停用Claude。硅谷数百名CEO和大佬联名,掀起Anthropic保卫战。
在这一众身位领先的选手中,小米展现出的「AI浓度」高得有那么亿点点离谱——此次,小米将AI赋能的「人车家全生态」首次亮相海外,从手机到汽车再到智能家居,AI贯穿生活动线,在真实环境中形成协同运转。
PureblueAI清蓝也同步发布了新产品——AI 营销数字员工平台mkter.ai,以及 AI 口碑营销数字员工“Mark”。
莫理这两天在 GitHub 上淘到了一个开源的实用工具,刚好能把这块短板给彻底补齐!这就是咱们今天的主角:Edit Banana,通用内容再编辑器。
没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。
来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch,一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构,IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减,在 BrowseComp 上从 3.5% 一路攀升至 42.5%。
强化学习已经成为大模型后训练阶段的核心方法之一,但一个长期存在的难题始终没有真正解决:现实环境中的反馈往往稀疏且延迟,模型很难从简单的奖励信号中推断出应该如何调整行为。