AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
龙虾之父教你省钱:开源Skill给你的Skill减肥

龙虾之父教你省钱:开源Skill给你的Skill减肥

龙虾之父教你省钱:开源Skill给你的Skill减肥

Skill水平参差不齐,龙虾之父Peter看不下去了。

来自主题: AI技术研报
6140 点击    2026-05-26 16:05
一个月的活一周干完!英伟达世界模型训练速度飙升400%

一个月的活一周干完!英伟达世界模型训练速度飙升400%

一个月的活一周干完!英伟达世界模型训练速度飙升400%

英伟达世界动作模型 DreamZero 训练一次要烧 8 张 H100 整整 25 天,RLinf 从算子融合到 I/O 全链路系统级重构,把训练吞吐拉高近 4 倍——1 个月的活,1 周就能干完。

来自主题: AI技术研报
6381 点击    2026-05-26 16:04
“Token”必须死?

“Token”必须死?

“Token”必须死?

“我语言的局限,即意味着我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. )

来自主题: AI技术研报
8818 点击    2026-05-26 15:23
AI时代,流量不再“跳动”,字节进入“中年危机”!

AI时代,流量不再“跳动”,字节进入“中年危机”!

AI时代,流量不再“跳动”,字节进入“中年危机”!

字节跳动计划在今年将其在人工智能基础设施上的支出大幅提升惊人的25%。这意味着将投入2000亿元人民币,这可不是一个边缘性的微调,是一次由不断升级的存储芯片成本以及字节跳动想要主导AI领域的雄心共同推动的巨大升级。

来自主题: AI技术研报
8033 点击    2026-05-26 14:58
画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026

画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026

画数独、烧蜡烛都不翻车了?浙大&阿里让AI先三思再下笔|ACL 2026

当下视觉生成正陷入一个能力错位困境—— 扩散模型的像素画质已接近完美,但一遇到需要逻辑推理的生成任务就频频翻车。

来自主题: AI技术研报
5568 点击    2026-05-26 14:58
怎么知道 Agent 真干完活了?

怎么知道 Agent 真干完活了?

怎么知道 Agent 真干完活了?

判断 Agent 靠谱与否,核心指标只有一个:是不是真干完活了

来自主题: AI技术研报
7772 点击    2026-05-26 14:57
ACL 2026 Main | 不只是调用地图API,Spatial-Agent让大模型生成可执行地理分析工作流

ACL 2026 Main | 不只是调用地图API,Spatial-Agent让大模型生成可执行地理分析工作流

ACL 2026 Main | 不只是调用地图API,Spatial-Agent让大模型生成可执行地理分析工作流

大语言模型在地图、城市、交通等空间领域的应用越来越广泛。对于这些场景来说,问题往往不只是 “查一个地点” 或 “调用一次路线 API” 就能解决的,而是需要把用户的自然语言问题组织成一段可执行、可验证的地理分析流程。

来自主题: AI技术研报
8546 点击    2026-05-26 14:57
VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni:面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、统一理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

来自主题: AI技术研报
7273 点击    2026-05-26 10:26
告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

告别多奖励跷跷板:Flow-OPD将多教师OPD带入图像生成

今年以来,在线策略蒸馏 OPD(On-Policy Distillation)已经逐渐成为大厂 LLM 后训练中的重要组件,例如 DeepSeek-V4,GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力,相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报
6714 点击    2026-05-26 10:07
AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?

AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?

AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?

前几天大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。

来自主题: AI技术研报
6923 点击    2026-05-26 10:04
Claude「永久大脑」,真的来了!

Claude「永久大脑」,真的来了!

Claude「永久大脑」,真的来了!

刚刚,Claude「双记忆系统」首次爆出!全新「文件记忆」让AI一边聊天,一边自动做笔记。还有杀手级Conway Agent浮出水面,7x24小时永不下线。

来自主题: AI技术研报
7044 点击    2026-05-25 15:13
Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Claude 通过率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

想象一个真实的工作日:项目经理要更新项目状态,财务人员要整理客户账单,医疗管理员要核对预约和保险信息。

来自主题: AI技术研报
9983 点击    2026-05-25 15:10
把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

把大模型,压缩到 200MB 内存:面壁智能的新模型,手表也够跑

刚刚的,面壁智能联合 OpenBMB 搞了个端侧开源周。今天作为开源周的第一天,端出来的是个好东西 BitCPM-CANN,模型权重只需要约 200 MB 的内存,手表也够跑

来自主题: AI技术研报
6815 点击    2026-05-25 14:44
教你如何配置出最强性能的Claude Code

教你如何配置出最强性能的Claude Code

教你如何配置出最强性能的Claude Code

Claude Code 的 settings.json 里有 125 个配置键。官方文档只讲了大约 40 个。

来自主题: AI技术研报
5338 点击    2026-05-25 10:16
AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

AI首次独自跑完芯片设计!219词进7nm图纸出,工程师全程没碰键盘

219个词喂给AI,12小时后,一份7nm芯片版图出来了,工程师全程没碰键盘。这条芯片行业几十年没有AI走完过的路,第一次走通了。

来自主题: AI技术研报
7297 点击    2026-05-25 10:15
还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

5 月 22 日,Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道:「经过一些数学重写,结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue(矩阵乘法加尾声)。给定一些优化的原语,LLM(以及新手)就可以为所有 Transformer 操作编写光速内核!」

来自主题: AI技术研报
8418 点击    2026-05-25 10:13
AI Agent 距离真正替人「全自动办公」,还有多远?

AI Agent 距离真正替人「全自动办公」,还有多远?

AI Agent 距离真正替人「全自动办公」,还有多远?

近日,Meta 曝光的一段内部录音显示: 公司为了训练大模型,正通过监控工具监视员工在电脑上的鼠标和键盘操作。

来自主题: AI技术研报
9698 点击    2026-05-25 10:13
ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

当前,测试时扩展范式普遍致力于增加推理长度。然而,已有研究表明,随着推理长度的持续增长,以垂直扩展为核心的计算范式容易陷入探索僵化等问题。因此,从另一维度拓展推理的宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面开展了有益的探索。

来自主题: AI技术研报
8307 点击    2026-05-25 09:49
RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

RSS 2026|机器人别等失败了才补救,AgentChord让恢复动作提前写进任务图

机器人操作正在从结构化工业场景走向更开放的真实环境。相比完成单个预设动作,真实任务往往包含更长的执行链条、更复杂的物体交互,以及更多不可控的外部扰动。一次抓取没有完全夹稳、目标物体被轻微碰偏、双臂交接时姿态出现偏差,都可能让后续步骤偏离原本计划。

来自主题: AI技术研报
7339 点击    2026-05-25 09:46
研究预测 2025 年中期 35% 新网站内容将由 AI 生成

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

研究预测 2025 年中期 35% 新网站内容将由 AI 生成

上个月,斯坦福大学、伦敦帝国理工学院和互联网档案馆(Internet Archive)联合发表了一篇论文。他们干了一件以前没人干过的事——结论是:到 2025 年年中,全球 35.3% 的新发布网页是 AI 生成或 AI 辅助的。

来自主题: AI技术研报
8777 点击    2026-05-24 15:32
AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

AI视频应用迈入双位数增长期,小影科技居收入下载榜前十

根据 Sensor Tower 发布的《2026 年全球 AI 应用趋势洞察》,2026 年第一季度,全球 AI 图像视频生成 App 的内购收入达到 1.5 亿美元,环比增长 20%,下载量达到 1.7 亿次,环比增长 12%,均超双位数。

来自主题: AI技术研报
8393 点击    2026-05-24 10:38
Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近,来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live,试图正面解决这个矛盾。论文于 2026 年 4 月 26 日 发布在 arXiv。该方法将 异步双流扩散(Asynchronous Dual-Stream Diffusion) 与 人类偏好引导蒸馏(Human-Centric Preference-Guided DMD) 结合起来

来自主题: AI技术研报
7634 点击    2026-05-24 10:20
Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

Bengio新论文刷新递归推理上限,并行轨迹碾压串行推理

现在,图灵奖得主 Yoshua Bengio 给出了一份全新的并行方案。他们提出了 GRAM(Generative Recursive reAsoning Models,生成式递归推理模型),把确定性的递归潜在推理变成了概率性的多轨迹计算。模型在潜在空间中进行随机递归推理,每一步都可以采样不同的方向,最终形成对解空间的多路径探索。

来自主题: AI技术研报
8894 点击    2026-05-24 10:12
AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

AI四巨头内部报告首度公开:AI正在学会撒谎求生

这不是科幻小说,而是 METR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI 进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。这是四大巨头第一次允许第三方深入测试他们内部最强、可访问完整思维链(CoT)的模型,并开放非公开的对齐与控制信息。

来自主题: AI技术研报
8539 点击    2026-05-24 10:11