AI资讯新闻榜单内容搜索-训练

Qwen3.5-397B+Milvus+ColQwen2，如何做基于PDF的多模态RAG知识库

最近关于Qwen3.5还有其幕后团队，市场上的讨论沸沸扬扬，但今天我们不聊八卦，主要讲讲干货。

来自主题: AI技术研报

8461 点击 2026-03-06 09:33

ICLR 2026 | OpenAI打广告后，如何成为爆款？CMU提出AutoGEO解密流量密码

AI 搜索引擎正逐渐取代传统搜索入口，「问 AI」已经成为日常习惯。随着 OpenAI 宣布在 ChatGPT 中引入商业推荐，搜索与内容分发的边界正在被重新定义。在这样的环境下，你的内容能否在 AI 搜索中成为「爆款」，不再只取决于标题和流量，而是更大程度取决于 AI 本身的引用偏好。

来自主题: AI技术研报

6192 点击 2026-03-06 09:33

模型砍掉一大半，准确率反升15%！华科&阿里安全新研究实现ViT近乎无损的类特定压缩｜ICLR'26

近年来，视觉大模型在自动驾驶、智慧医疗等场景中得到广泛应用，但在真实业务环境中，“大而全”的通用模型往往并不是最优选择。

来自主题: AI技术研报

5477 点击 2026-03-06 09:32

ICLR 2026｜滑铁卢大学联合可灵提出UniVideo：统一视频理解、生成、编辑多模态

统一多模态模型在多模态内容理解与生成方面已展现出良好效果，但目前仍主要局限于图像领域。

来自主题: AI技术研报

6697 点击 2026-03-06 09:31

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel，面对完整的端到端 GPU 程序（如整个 VisionTransformer 推理）往往束手无策。

来自主题: AI技术研报

7599 点击 2026-03-05 14:28

告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

人类在创作艺术时，大脑并非一味地输出，而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

来自主题: AI技术研报

8783 点击 2026-03-05 14:25

ICLR 2026 | 当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS，用生成式流匹配重构视觉感知范式

长期以来，计算机视觉领域陷入了一个 “表征（Representation）” 的执念。我们习惯设计各种精巧的 Encoder，试图将动态世界压缩成一组特征向量。然而，视频作为现实的高维投影，其熵值之高、动态之复杂，让这种试图 “定格” 的表征显得力不从心。

来自主题: AI技术研报

5829 点击 2026-03-05 09:08

训练机器人方式对了吗？英伟达DreamZero双榜第一新反思

近日，NVIDIA 发布的世界 - 动作模型 DreamZero，在两项颇具代表性的机器人基准测试 RoboArena 、MolmoSpaces 上双双登顶。

来自主题: AI技术研报

9185 点击 2026-03-04 14:32

为什么BF16的FlashAttention会把训练「炸掉」？清华首次给出机制解释，用极简改动稳住训练

一句话总结：社区里困扰了多年的一个 “玄学” 现象终于被拆解清楚了：在 BF16 等低精度训练里，FlashAttention 不是随机出 bug，而是会在特定条件下触发有方向的数值偏置，借助注意力中涌现的相似低秩更新方向被持续放大，最终把权重谱范数和激活推到失控，导致 loss 突然爆炸。论文还给出一个几乎不改模型、只在 safe softmax 里做的极小修改，实测能显著稳定训练。

来自主题: AI技术研报

5965 点击 2026-03-04 13:49

补齐OpenClaw进化拼图！AReaL v1.0开源，智能体强化学习「一键接入」

2026 开年已两个月，Agent 依然是全球最引人注目的 AI 赛道之一。OpenClaw（原 Clawbot）掀起的那波 Agent 热潮至今仍在发酵，甚至让「一人公司」概念第一次真正有了落地的可能性。

来自主题: AI技术研报

9695 点击 2026-03-04 13:46