AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude脑子里想的,被翻译成人话了!Anthropic新研究看懵人类

Claude的内心独白被翻译成人话了!就在今天,Anthropic开源了一台AI读心机器,然而它跑出来的第一批成果却让人触目惊心。

来自主题: AI技术研报
8441 点击    2026-05-15 10:37
商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

商汤SenseNova U1深度拆解,原生统一架构终结缝合时代

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时,底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题:理解与生成,是否天生就该是两件事?

来自主题: AI技术研报
6627 点击    2026-05-15 10:36
博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

博士80小时熬夜改代码,Codex 2小时交卷!科研奇点来了

就在今天,Agentic AI工程师发现:博士80小时的科研任务,Codex不到2小时就跑完了,效率差达到了40倍!其实按照旧标准,AGI早已存在了,只是全行业都在移动球门。

来自主题: AI技术研报
9109 点击    2026-05-15 09:57
首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

首创TTFA指标!港大团队开源FASTER,让VLA模型真正实现「即刻响应」

具身智能正以前所未有的速度发展,VLA 模型展现出越来越强的动作和泛化能力。然而,当我们真正把 VLA 模型部署到物理世界时,一个核心挑战浮出水面:实时性。

来自主题: AI技术研报
7746 点击    2026-05-15 09:55
突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

突破三维感知瓶颈:魔芯科技发布VGGT系列成果,实现动态高保真重建并获新一轮融资

在迈向通用人工智能(AGI)的过程中,世界模型被视为让机器理解物理规律、实现空间智能的关键。而高效、鲁棒和精准的三维感知能力,被广泛认为是世界模型的首要前提。通常来说,一个成熟的世界模型需要具备三大核心能力:对长时空序列的持续记忆、对复杂动力学的因果解耦、以及对高清物理细节的精细感知。

来自主题: AI技术研报
8265 点击    2026-05-14 15:03
0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

0成本升级,快手OneSearch-V2全量上线,生成式搜索进入「懂你」时代

针对生成式检索范式在电商搜索场景下面临的复杂查询理解不足、用户潜在意图挖掘乏力、奖励系统易过拟合历史窄偏好等落地瓶颈,快手技术团队在已规模化部署的工业级生成式搜索框架 OneSearch 基础上,发布了一篇系统性升级的研究论文,正式推出新一代框架 OneSearch-V2。

来自主题: AI技术研报
8501 点击    2026-05-14 14:25
ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

ACL 2026|打破推理同质化!阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架,通过改进 rollout 策略引导模型生成更多样化的推理轨迹,将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”,在多个数学基准上同时提升准确率与语义多样性,最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main,来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报
9077 点击    2026-05-14 14:24
Codex+hyperframe做视频,让剪辑师们慌了?

Codex+hyperframe做视频,让剪辑师们慌了?

Codex+hyperframe做视频,让剪辑师们慌了?

这两天打开X,发现一个开源项目刷屏了——Hyperframes。GitHub上两天干了17.4k star,1.6k fork,Codex、Cursor、Claude Code的插件全线覆盖。

来自主题: AI技术研报
6560 点击    2026-05-14 10:01
蚂蚁灵波开源LingBot-VLA后训练代码!150条示教数据即可适配新机器人

蚂蚁灵波开源LingBot-VLA后训练代码!150条示教数据即可适配新机器人

蚂蚁灵波开源LingBot-VLA后训练代码!150条示教数据即可适配新机器人

就在刚刚,蚂蚁集团旗下具身智能公司灵波科技传出新动作—— 全面开源其具身基座模型LingBot-VLA的真机后训练工具链。

来自主题: AI技术研报
6331 点击    2026-05-14 10:01
微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代

微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代

微软Terminus-4B之后,Agent可能会进入「专用小模型Sub Agent」时代

您有没有想过:在代码Agent里,执行终端命令、跑测试、读报错、总结日志这种任务,用Claude Opus、Claude Sonnet、GPT-5.3-Codex这类昂贵Token的大模型来执行,是不是有点浪费?一定要这么做吗?

来自主题: AI技术研报
7170 点击    2026-05-14 10:01
名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报
9430 点击    2026-05-14 09:59
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改

ber!这个五一假期,我也是真够忙的: 自拍、电影、追剧、街头采访、听音乐会,还抽空回老家结了次婚……

来自主题: AI技术研报
9284 点击    2026-05-14 09:31
ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

ICML 2026 | 将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题

在多模态大模型(MLLM)快速发展的浪潮中,融合多模型 “集体智慧” 已成为提升模型性能的关键路径,并催生了多教师知识蒸馏这一主流范式。然而,不同来源的教师模型在架构与优化上的差异,其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹,即 “概念漂移”(Concept Drift)。

来自主题: AI技术研报
7437 点击    2026-05-14 09:30
清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源

清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源

清华系团队出手!一张 4090 即可「爆改」,1.3B小钢炮震撼开源

端侧多模态,卷出新天花板。仅1.3B,性能反超,效率翻倍,一张4090就能「爆改」。刚刚,清华系团队面壁智能开源了新一代「小钢炮」MiniCPM-V 4.6,再次证明了在端侧AI领域,中国团队已然站在世界前沿。

来自主题: AI技术研报
8876 点击    2026-05-13 15:24
ICML 2026 Spotlight| 拒绝盲目猜token,阿里x浙大将投机解码带入弹性预算时代

ICML 2026 Spotlight| 拒绝盲目猜token,阿里x浙大将投机解码带入弹性预算时代

ICML 2026 Spotlight| 拒绝盲目猜token,阿里x浙大将投机解码带入弹性预算时代

随着大模型参数规模持续扩大,推理成本已经成为生产级 LLM 服务的核心瓶颈。投机解码(Speculative Decoding, SD)通过「小模型 draft + 大模型 verify」的方式,将多个候选 token 放到一次目标模型前向中并行验证,从而缓解自回归解码的串行瓶颈。

来自主题: AI技术研报
7863 点击    2026-05-13 15:01
CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

CVPR 2026 Highlight|让家电「在仿真中运转起来」,北大正式发布RealAppliance!

家用电器是家庭服务机器人最难啃的一类任务对象。与桌面物体操作相比,家电操作不仅涉及按钮、旋钮、门体等多种异构部件,还受到模式切换、状态约束和程序逻辑的共同支配。真正完成一次家电任务,机器人往往既要「看得见」,也要「读得懂」,还要「按说明书做对」。

来自主题: AI技术研报
5696 点击    2026-05-13 15:00
VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破

当前VLA模型常依赖视觉线索而非语言指令,导致在新场景下表现不佳。论文提出LangForce方法,通过引入对数似然比损失,强化模型对语言的依赖,提升其在分布外环境中的泛化能力,并保留语言核心功能。

来自主题: AI技术研报
9617 点击    2026-05-13 15:00
何恺明首个语言模型:105M参数,不走GPT自回归老路

何恺明首个语言模型:105M参数,不走GPT自回归老路

何恺明首个语言模型:105M参数,不走GPT自回归老路

何恺明,也下场做语言模型了。

来自主题: AI技术研报
8423 点击    2026-05-13 10:47
Thinking Machines 刚发的「边听边说」,让我想到了几个月前的面壁智能

Thinking Machines 刚发的「边听边说」,让我想到了几个月前的面壁智能

Thinking Machines 刚发的「边听边说」,让我想到了几个月前的面壁智能

OpenAI 前 CTO Mira Murati 和前应用研究负责人翁荔(Lilian Weng)创立的 Thinking Machines Lab,也就是 TML,刚刚发布了一个叫「Interaction Models」的研究

来自主题: AI技术研报
8210 点击    2026-05-13 10:47
告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。

来自主题: AI技术研报
8107 点击    2026-05-13 10:30
Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务

Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务

Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务

Agent 到底需要什么样的 infrastructure,今年业界一直有很多探讨,PingCAP 联合创始人黄东旭此前也发过多篇讨论文章,不过当时都是一些猜想。随着 agent 今年的爆发,大规模落地的案例出现了。

来自主题: AI技术研报
8775 点击    2026-05-13 10:00
TTS也要真人感!首个字级内容、毫秒级停顿控制的语音合成系统

TTS也要真人感!首个字级内容、毫秒级停顿控制的语音合成系统

TTS也要真人感!首个字级内容、毫秒级停顿控制的语音合成系统

语音合成这两年发展迅速:把一段话顺顺当当地念完,已经不算难事;难的是该慢的时候慢,该顿的时候顿,该强调的时候真能把重点托出来。

来自主题: AI技术研报
5419 点击    2026-05-13 10:00
你的公司在“用AI”,还是真正AI原生?Greg说:全球也就

你的公司在“用AI”,还是真正AI原生?Greg说:全球也就

你的公司在“用AI”,还是真正AI原生?Greg说:全球也就

昨天我在刷X,Greg Isenberg发了一篇长文。133K次浏览,598个赞,说的是"如何成为AI原生公司"。我读到第三段停下来了。

来自主题: AI技术研报
6025 点击    2026-05-13 09:59
上海AI Lab新研究:SFT能泛化,只要满足这三个条件

上海AI Lab新研究:SFT能泛化,只要满足这三个条件

上海AI Lab新研究:SFT能泛化,只要满足这三个条件

随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。

来自主题: AI技术研报
8909 点击    2026-05-13 09:59