AI资讯新闻榜单内容搜索-模型训练

迪士尼真的造出了「雪宝」Olaf！但为了不让它“融化”，工程师逼疯了AI

还记得之前非常火的雪宝Olaf机器人吗？

来自主题: AI技术研报

8991 点击 2025-12-22 16:03

Gemini负责人：Pro的主要作用是蒸馏Flash！最大突破空间在后训练；Noam、Jeff Dean：持续学习是重要改进方向

2025年底，最令人印象深刻的AI圈大事莫过于Gemini 3 Flash的发布。

来自主题: AI资讯

7524 点击 2025-12-22 11:44

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型（World Model）」热潮之后，一个现实问题逐渐浮出水面：世界模型的可视化与交互，依然严重受限于底层 Web 端渲染能力。

来自主题: AI技术研报

9799 点击 2025-12-22 10:17

首个文本到3D生成RL范式诞生，攻克几何与物理合理性

在大语言模型和文生图领域，强化学习（RL）已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报

6577 点击 2025-12-22 09:38

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？

来自主题: AI技术研报

10369 点击 2025-12-22 09:33

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

10228 点击 2025-12-22 09:33

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

9198 点击 2025-12-21 12:39

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

7688 点击 2025-12-21 12:35

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此，华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架，CineCtrl 通过解耦交叉注意力机制，摆脱了多控制信号共同控制的效果耦合问题，实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报

8598 点击 2025-12-21 12:34

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

8569 点击 2025-12-20 10:04