AI资讯新闻榜单内容搜索-模型

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。

来自主题: AI技术研报

7152 点击 2026-03-04 13:44

给GUI Agent装上「世界模型」：阿里通义用混合数据+统一思维链，让模型学会预判屏幕变化

伴随多模态大模型的发展，GUI Agent正成为人机交互的新范式。

来自主题: AI技术研报

8023 点击 2026-03-04 13:43

谷歌深夜放性价比“猛兽”！Gemini 3.1 Flash轻量版干翻前辈，价格打骨折

首Token提速2.5倍，推理成绩干翻前代大模型。

来自主题: AI资讯

5899 点击 2026-03-04 11:29

MWC围观、OpenClaw屠榜！2026 AI变天：从“陪聊”到“干活”，中国开源模型成全球开发者首选

阶跃星辰Step 3.5 Flash霸榜OpenClaw调用排行，全球开发者正在“用脚投票”AI新方向。

来自主题: AI资讯

8390 点击 2026-03-04 11:24

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

你见过 7B 模型在拼图推理上干翻 GPT-5 吗？

来自主题: AI技术研报

6379 点击 2026-03-04 11:18

字节清华智能体自动写CUDA内核，比torch.compile加速2.11倍

让AI自己写高性能GPU代码，字节Seed与清华AIR团队做到了。

来自主题: AI技术研报

7237 点击 2026-03-04 10:39

阿里千问大模型掌舵人林俊旸卸任

me stepping down. bye my beloved qwen.（我将卸任。再见了，我深爱的 qwen。） 3 月 4 日凌晨，阿里通义千问（Qwen）技术负责人林俊旸在 X 突然发文，向自己一手带大的开源模型项目告别。

来自主题: AI资讯

8986 点击 2026-03-04 09:56

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

Claude Code 正式上线语音模式：输入 /voice，长按空格说话，松开即完成输入。语音转录实时流入光标位置，和键盘无缝切换，转录Token完全免费。编程的下一个战场不是模型智商，而是交互方式。

来自主题: AI资讯

9112 点击 2026-03-03 14:36

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

昨天深夜，阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列，覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布，便在海外科技圈引发强烈反响。马斯克也在该推文下评论称：「Impressive intelligence density」（令人印象深刻的智能密度）。这股热度的背后，APPSO 也好奇，为什么这几款小模型能够激起如此大的波澜？

来自主题: AI资讯

8992 点击 2026-03-03 14:35

AI资讯新闻榜单内容搜索-模型

不止修bug：Agentic Coding评测走向复杂feature交付新阶段

给GUI Agent装上「世界模型」：阿里通义用混合数据+统一思维链，让模型学会预判屏幕变化

谷歌深夜放性价比“猛兽”！Gemini 3.1 Flash轻量版干翻前辈，价格打骨折

MWC围观、OpenClaw屠榜！2026 AI变天：从“陪聊”到“干活”，中国开源模型成全球开发者首选

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

字节清华智能体自动写CUDA内核，比torch.compile加速2.11倍

阿里千问大模型掌舵人林俊旸卸任

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？