AI资讯新闻榜单内容搜索-训练

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

扩展无语言的视觉表征学习。

来自主题: AI技术研报

7805 点击 2025-04-03 15:06

类比的长河，为何流到大模型就被截流？

当我们遇到新问题时，往往会通过类比过去的经验来寻找解决方案，大语言模型能否如同人类一样类比？在对大模型的众多批判中，人们常说大模型只是记住了训练数据集中的模式，并没有进行真正的推理。

来自主题: AI技术研报

10603 点击 2025-04-03 10:50

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！

来自主题: AI技术研报

8706 点击 2025-04-03 10:36

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性，是计算机视觉与图形学领域长期关注的难题。

来自主题: AI技术研报

4062 点击 2025-04-03 10:11

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

9852 点击 2025-04-03 09:58

OpenAI 吉卜力滤镜狂欢背后：AI正在重塑艺术创作的“法律边疆”——超越版权法？

“艺术家与人工智能”的张力正在持续紧张。OpenAI虽然声称避免复制“个别在世艺术家的风格”，但它一直在践行并推动政策允许AI对版权内容的训练；而小部分能够承担高昂诉讼成本的艺术家，却也因为版权法灰色地带而面临不确定的局面，更不要说那些不知名的艺术家们了。

来自主题: AI监管政策

13284 点击 2025-04-02 20:17

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

5300 点击 2025-04-02 15:05

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

AI能像人类一样理解长视频。

来自主题: AI技术研报

7668 点击 2025-04-02 14:54

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域，高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景，反复验证算法的可靠性。

来自主题: AI技术研报

7553 点击 2025-04-02 14:48

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

众所周知，DeepSeek R1 这种模型在推理任务上很能打，尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗？

来自主题: AI技术研报

7846 点击 2025-04-02 14:40

AI资讯新闻榜单内容搜索-训练

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

类比的长河，为何流到大模型就被截流？

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

OpenAI 吉卜力滤镜狂欢背后：AI正在重塑艺术创作的“法律边疆”——超越版权法？

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题