AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

Harness is the New Dataset:模型智能提升的下一个关键方向

最近,harness engineering 又成了继 prompt engineering、context engineering 之后新一代的 buzzword。

来自主题: AI技术研报
7653 点击    2026-03-30 09:55
打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级

新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。

来自主题: AI技术研报
9800 点击    2026-03-30 09:29
连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

当世界模型越来越大,真正制约它走向「内部模拟器」的,未必是表征能力,而可能是动力学建模。

来自主题: AI技术研报
7204 点击    2026-03-30 09:29
CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

CVPR 2026 | BiMotion:用 B 样条曲线重新定义 3D 角色运动生成

当你希望 AI 将 "士兵举起手臂,向后倾身,然后身体向前扑倒" 这段文字转化为一段 3D 角色动画,现有大多数方法给出的答案是:一段摇摇晃晃、语义残缺的短片段。这并非模型能力不足,问题的根源在于将运动表达为逐帧离散序列这一根本性的设计决策。

来自主题: AI技术研报
6888 点击    2026-03-30 09:28
阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

阿里面试官冷笑:"5000 份文档扔进去就算建好知识库了?难怪你的 RAG 答非所问。" 我无言以对...

大家好,我是吴师兄。 之前有个学员面阿里的 NLP 岗,简历上写着"搭建了基于 RAG 的企业知识问答系统"。面试官翻着简历问: "你们知识库有多少文档?什么格式?" 他说:"大概 5000 份,PD

来自主题: AI技术研报
7532 点击    2026-03-29 10:50
打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来

近期,利用视频生成模型为机器人构建 “世界模型”,已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 “想象” 出未来的视觉轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力,这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报
8247 点击    2026-03-28 09:50
aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

硅心科技(aiXcoder)发布了一款专为「代码变更应用」场景设计的高性能、轻量级模型 aiX-apply-4B。基准测试结果显示,在 20 多种主流编程语言及 Markdown 等多类型文件格式的测试中,aiX-apply-4B 的平均准确率达到 93.8%,超越 Qwen3-4B 基座模型 62.6% 的准确度

来自主题: AI技术研报
8338 点击    2026-03-27 18:21
"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

前几天,一篇来自Kimi的论文「ATTENTION RESIDUALS」在 AI 圈引发了激烈讨论——马斯克罕见地发出评价:"Impressive work from Kimi"。同时,两位前Openai大佬也同样发出了高度评价,OpenAI 「推理模型之父」Jerry Tworek表示“深度学习2.0时代即将到来”。

来自主题: AI技术研报
8323 点击    2026-03-27 14:16
Claude Code auto mode 解析:如何用 AI 分类器替代人工审批

Claude Code auto mode 解析:如何用 AI 分类器替代人工审批

Claude Code auto mode 解析:如何用 AI 分类器替代人工审批

用 Claude Code 写代码的人都熟悉一个场景:Claude 每执行一个命令、每改一个文件,都要你点一次“同意”。Anthropic 的数据显示,用户 93% 的操作都会批准。也就是说,这个“安全审批”环节,绝大多数时候只是一个条件反射。

来自主题: AI技术研报
9000 点击    2026-03-26 16:52
清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年,多模态模型在理解任务上快速演进,图像问答、OCR、视觉推理、跨模态对话等能力不断提升;与此同时,图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是:能否用同一个模型,同时做好理解与生成?这正是统一多模态模型(Unified Multimodal Models, UMMs)正在回答的问题。

来自主题: AI技术研报
6854 点击    2026-03-26 14:45
刷榜多元时序预测,性能波动0%!打破CI/CD二元对立 | ICLR'26

刷榜多元时序预测,性能波动0%!打破CI/CD二元对立 | ICLR'26

刷榜多元时序预测,性能波动0%!打破CI/CD二元对立 | ICLR'26

ICLR'26新研究CPiRi打破时序预测僵局:用冻结底座提取时序特征,轻量模块专注学习通道间真实关系,不靠位置编码「背答案」。测试中通道乱序性能零波动,仅用25%数据即可泛化至全网络,真正实现鲁棒与精准双赢。

来自主题: AI技术研报
7036 点击    2026-03-26 10:50
「百万级」视频推理数据集!30+顶尖高校联合发布

「百万级」视频推理数据集!30+顶尖高校联合发布

「百万级」视频推理数据集!30+顶尖高校联合发布

AI视频生成已能「画得像」,但不会「想得对」。VBVR推出百万级视频推理数据集,首次系统评测模型对空间、物理、逻辑和抽象的推理能力,发现顶尖模型通过率仅68%,暴露其缺乏真实认知,推动视频AI从「视觉模仿」迈向「智能推理」。

来自主题: AI技术研报
6210 点击    2026-03-26 10:49
零样本 Sim-to-Real !实现五指灵巧手力控抓取与手内操作

零样本 Sim-to-Real !实现五指灵巧手力控抓取与手内操作

零样本 Sim-to-Real !实现五指灵巧手力控抓取与手内操作

实现具备人类水平的灵巧操作能力,是机器人学领域长期以来的核心挑战之一。尽管多指灵巧手在硬件上具备了类似人类的潜力,但由于接触丰富的物理特性和非理想的驱动机制,训练能够直接部署在真实硬件上的控制策略仍然非常困难。

来自主题: AI技术研报
6010 点击    2026-03-26 10:48
用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

用SFT打出RL的效果?微软联合提出高效后训练算法

在大模型后训练阶段,监督微调(SFT)和强化学习(RL)是两根不可或缺的支柱。SFT 利用高质量的离线(Off-policy)数据快速注入知识,但受限于静态数据分布,泛化能力往往容易触及天花板并带来灾难性遗忘;RL 则允许模型在探索中不断自我迭代,产生与当前策略同分布(On-policy)的数据,上限极高,但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报
5315 点击    2026-03-26 10:47
对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

对抗KV Cache压缩的脆弱性:两行代码以最坏风险控制防御底层假设崩塌

随着大模型长上下文能力快速增长,海量 KV Cache 存储需求急剧增加,各类 KV Cache 压缩方法如雨后春笋般涌现。然而,这些方案在真实场景中的工程落地却常常陷入困境。

来自主题: AI技术研报
8897 点击    2026-03-25 13:41
Ψ₀刚刚开源了!迈向通用人形机器人的基座模型

Ψ₀刚刚开源了!迈向通用人形机器人的基座模型

Ψ₀刚刚开源了!迈向通用人形机器人的基座模型

人形机器人在春晚舞台上大放异彩!然而,人们在看惯了机器人跳舞、后空翻,乃至武术表演之后,不禁开始思考:机器人何时才能真正走进大众生活,解决日常生活中的琐碎任务,从而解放人类的双手?

来自主题: AI技术研报
7569 点击    2026-03-25 13:40
LeCun的世界模型单GPU就能跑了

LeCun的世界模型单GPU就能跑了

LeCun的世界模型单GPU就能跑了

LeCun世界模型最新进展,开源了一套极简训练方案,单GPU就能跑。

来自主题: AI技术研报
6393 点击    2026-03-24 17:25