AI资讯新闻榜单内容搜索-训练

CVPR'25跨模态因果对齐，让机器更懂视觉证据丨中大南洋理工等联合开源

跨模态因果对齐，让机器更懂视觉证据！

来自主题: AI技术研报

9235 点击 2025-03-17 15:02

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

在深度学习的多个应用场景中，联合优化多个损失项是一个普遍的问题。典型的例子包括物理信息神经网络（Physics-Informed Neural Networks, PINNs）、多任务学习（Multi-Task Learning, MTL）和连续学习（Continual Learning, CL）。然而，不同损失项的梯度方向往往相互冲突，导致优化过程陷入局部最优甚至训练失败。

来自主题: AI技术研报

8204 点击 2025-03-17 14:55

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

8265 点击 2025-03-17 14:36

迁移DeepSeek-R1同款算法，小米让7B模型登顶音频理解推断MMAU榜单

7B小模型+3.8万条训练数据，就能让音频理解和推断评测基准MMAU榜单王座易主？

来自主题: AI技术研报

2868 点击 2025-03-17 10:52

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

LMM在人类反馈下表现如何？新加坡国立大学华人团队提出InterFeedback框架，结果显示，最先进的LMM通过人类反馈纠正结果的比例不到50%！

来自主题: AI技术研报

7116 点击 2025-03-17 09:32

TRACE：因果事件建模助力视频理解大模型的时间定位能力

下班回家后你正深陷于一部两小时的综艺节目中，渴望找到那些让人捧腹的爆笑片段，却如同大海捞针。或者，在紧张刺激的足球赛中，你渴望捕捉到那决定性的绝杀瞬间，但传统 AI 视频处理技术效率低下，且模型缺乏泛化能力。为解决这些问题，香港中文大学（深圳）唐晓莹课题组联合腾讯 PCG 发布 TRACE 技术，通过因果事件建模为视频理解大模型提供精准的时间定位能力。

来自主题: AI技术研报

8140 点击 2025-03-17 09:19