AI资讯新闻榜单内容搜索-模型训练

华人团队打造养虾神器，开源OpenClaw-RL框架，让AI边用边学

过去一周全网都在养那只红色卡通龙虾 OpenClaw。作为能够自己动手干活的 AI 智能体，有人花几千块请它回家，几天后账号被盗、文件被删，又花几百块请人卸载。从排队安装到扎堆卸载只隔了一周。

来自主题: AI技术研报

9503 点击 2026-03-17 14:34

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D，无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征，精准控制结构与时序，轻松完成复杂变形，效果远超传统方法。

来自主题: AI技术研报

10038 点击 2026-03-17 14:27

视频生成一长就漂移竟是前序帧「太干净」惹的祸！研究揭示共享噪声水平才是长视频稳定关键

自回归视频生成越往后越崩的问题有救了！

来自主题: AI技术研报

9422 点击 2026-03-17 14:26

80万条数据揭示隐患：AI正在「污染」病历，你的诊疗数据可能越来越不靠谱

随着生成式人工智能在医疗领域的加速渗透，越来越多的病历、影像报告及各类临床文本正逐步纳入 AI 参与生成的范畴。这一旨在提升医疗效率的技术革新背后，潜藏着威胁诊断安全性的深层隐患。

来自主题: AI技术研报

10116 点击 2026-03-17 09:25

CVPR 2026 | 从视觉Token内在变化量出发，实现VLM无损加速1.87倍

随着高分辨率图像理解与长视频处理需求的爆发式增长，大型视觉语言模型（LVLMs）所需处理的视觉 Token 数量急剧膨胀，推理效率成为落地部署的核心瓶颈。Token 压缩是缩短序列、提升吞吐的直接手段，但现有方法普遍依赖注意力权重来判断 Token 重要性，这一路线暗藏两个致命缺陷：

来自主题: AI技术研报

9110 点击 2026-03-17 08:49

CVPR'26 | 以机器人为中心的ToM推理框架，从心智推理到决策行动

吉林大学&微软亚洲研究院等团队提出MindPower框架，让机器人像人一样理解他人想法并主动帮忙，构建了首个以机器人为中心的心智推理评测体系，通过六层推理链条，让AI不仅看懂场景，更能推断意图、做出决策、执行动作，显著提升助人能力。

来自主题: AI技术研报

6336 点击 2026-03-17 08:49

全新线性注意力范式！哈工深张正团队提出模长感知线性注意力！显存直降92.3%！

当 Transformer 席卷计算机视觉领域，高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显：标准 Softmax 注意力的二次复杂度，让 70K+token 的超分辨率任务直接显存爆炸，高分辨率图像分割、检测的推理延迟居高不下。

来自主题: AI技术研报

5560 点击 2026-03-17 08:48

Transformer祖制，被Kimi捅破了！谷歌大V高赞：Kimi触碰了十年没人敢碰的禁区！性能炸裂，相当于免费得1.25倍算力，网友：简直天才洞察

就在刚刚，Moonshot AI（月之暗面）发布了一项足以撼动 Transformer 底层的研究：《Attention Residuals》。海外科技大 V，谷歌高级AI产品经理 Shubham Saboo 直接开启了“高赞”模式：“他们触碰了那个十年没人敢碰的部分。”

来自主题: AI技术研报

8902 点击 2026-03-16 17:47

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

5651 点击 2026-03-16 15:06

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

6742 点击 2026-03-16 14:27