AI资讯新闻榜单内容搜索-数据集

300万对样本、200万对实拍：深度估计的数据荒，终于被打破

做深度估计、深度补全的人，大概都有过这样一个瞬间。

来自主题: AI技术研报

8837 点击 2026-03-31 14:04

打破代码大模型训练瓶颈：微软&剑桥&普林推出MicroCoder，算法、数据、框架、训练经验全面升级

新一代代码模型的训练动态已与旧模型截然不同，主流强化学习方法和数据集在其上几乎“失效”。

来自主题: AI技术研报

10657 点击 2026-03-30 09:29

「百万级」视频推理数据集！30+顶尖高校联合发布

AI视频生成已能「画得像」，但不会「想得对」。VBVR推出百万级视频推理数据集，首次系统评测模型对空间、物理、逻辑和抽象的推理能力，发现顶尖模型通过率仅68%，暴露其缺乏真实认知，推动视频AI从「视觉模仿」迈向「智能推理」。

来自主题: AI技术研报

6996 点击 2026-03-26 10:49

CVPR 2026 | 从「单帧」到「分镜」：STAGE重新定义AI电影叙事

目前，该论文已录用至 CVPR 2026，相关数据集和模型训练训练和推理代码将逐步开源：究其原因，一个好故事并非一堆漂亮镜头的简单拼接，而是一个有结构、有逻辑的叙事整体。

来自主题: AI技术研报

9140 点击 2026-03-22 09:39

万字综述遥感AI智能体！六大应用场景全面爆发，地理空间智能从「眼睛」变「大脑」

如今，一场由 AI 智能体驱动的变革正在发生。近日，来自香港科技大学、西北工业大学、清华大学等多家高校及研究机构的学者联合发布了遥感 AI 智能体领域系统综述。全文逾万字，首次为「遥感智能体」给出了严格定义，系统梳理了其架构、应用、数据集与未来方向。

来自主题: AI技术研报

9344 点击 2026-03-21 09:28

真·养虾！3步让龙虾边聊边进化，不用GPU不用数据集就能强化学习

让OpenClaw帮干活还不够，现在，程序员们正想方设法让🦞自己变强。

来自主题: AI技术研报

11364 点击 2026-03-12 14:51

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

8218 点击 2026-03-09 14:29

ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型，打破闭源技术壁垒

基于对注意力特性的观察，CineTrans 提出块对角掩码的通用机制，使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性，作者设计了详细的多镜头视频生产管线，并收集了一个高质量、多镜头数据集 Cine250K，大幅提升多镜头转场视频生成的效果。作为首个时间级可控的自动化转场模型，CineTrans 为这一领域的众多后续方法提供了关键技术。

来自主题: AI技术研报

9657 点击 2026-02-28 15:05

单个LLM已不够？华盛顿大学开源多模型协同框架MoCo

为了支持多模型协同研究并加速这一未来愿景的实现，华盛顿大学 (University of Washington) 冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出 MoCo—— 一个针对多模型协同研究的 Python 框架。MoCo 支持 26 种在不同层级实现多模型交互的算法，研究者可以灵活自定义数据集、模型以及硬件配置，比较不同算法，优化自身算法，以此构建组合式人工智能系统。MoCo 为设计、

来自主题: AI技术研报

9849 点击 2026-02-18 13:24

Z Tech｜ICLR 2026字节发布：从短句到篇章，DiscoX为长文翻译提供评测新范式

DiscoX构建了一套200题的长文翻译数据集，以平均长度1,712 tokens的长篇章做评测单元，要求整个长文文本作为一个整体来翻译，除翻译准确度外，重点考察跨段落的逻辑与风格一致性、上下文中的术语精确性、以及专业写作规范，贴合用户真实的使用场景。

来自主题: AI技术研报

11388 点击 2026-02-13 11:03