AI资讯新闻榜单内容搜索-模型训练

北大发布 ManualVLA：首个长程「生成–理解–动作」一体化模型，实现从最终状态自主生成说明书并完成操纵

视觉–语言–动作（VLA）模型在机器人场景理解与操作上展现出较强的通用性，但在需要明确目标终态的长时序任务（如乐高搭建、物体重排）中，仍难以兼顾高层规划与精细操控。

来自主题: AI技术研报

9644 点击 2025-12-19 10:23

在计算机图形学、三维视觉、虚拟人、XR 领域，SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一，每年只接收全球最顶尖研究团队的成果稿件，代表着学术与工业界的最高研究水平与最前沿技术趋势。

来自主题: AI技术研报

7503 点击 2025-12-19 09:40

如何让针对静态场景训练的3D基础模型（3D Foundation Models），在不增加训练成本的前提下，具备处理动态4D场景的能力？

来自主题: AI技术研报

10579 点击 2025-12-18 09:48

如今，以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务，而DeepSearch 作为深度思考大模型的核心搜索器，在推理过程中通过迭代调用外部搜索工具，访问参数边界之外的最新、领域特定知识，从而提升推理的深度和事实可靠性。

来自主题: AI技术研报

6714 点击 2025-12-18 09:46

多模态推理又有新招，大模型“记不住教训”的毛病有治了。

来自主题: AI技术研报

9897 点击 2025-12-18 09:44

今天聊一聊我们如何做高质量rerank。

来自主题: AI技术研报

10147 点击 2025-12-18 09:43

北京大学团队提出了一种新的视觉语义场景补全方法HD²-SSC，用于从多视角图像重建三维语义场景。该方法通过高维度语义解耦和高密度占用优化，解决了现有技术中二维输入与三维输出之间的维度差异，以及人工标注与真实场景密度差异的问题，从而实现更准确的语义场景补全。

来自主题: AI技术研报

6454 点击 2025-12-18 09:14

在个性化视觉生成的实际应用中，通用视觉基础模型的表现往往难以满足精准需求。为实现高度定制化的生成效果，通常需对大模型进行针对性的自适应微调，但当前以 LoRA 为代表的主流方法，仍受限于定制化数据收集与冗长的优化流程，耗时耗力，难以在真实场景中广泛应用。

来自主题: AI技术研报

6454 点击 2025-12-18 09:12

LLM 智能体很赞，正在成为一种解决复杂难题的强大范式。

来自主题: AI技术研报

8492 点击 2025-12-17 14:58

如何让针对静态场景训练的 3D 基础模型（3D Foundation Models）在不增加训练成本的前提下，具备处理动态 4D 场景的能力？

来自主题: AI技术研报

7309 点击 2025-12-17 14:38