AI资讯新闻榜单内容搜索-训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练
给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

作为一名 AI 领域的博士生,徐玉庄的经历比较特殊。本科毕业于国防科技大学,随后在部队工作了 5 年,接着在清华大学获得硕士学位,目前在哈尔滨工业大学读博。

来自主题: AI技术研报
6831 点击    2025-12-31 08:30
必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。

来自主题: AI技术研报
7791 点击    2025-12-31 08:29
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报
8306 点击    2025-12-30 15:14
告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报
7285 点击    2025-12-30 10:29
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报
5840 点击    2025-12-30 09:57
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

在电影与虚拟制作中,「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化,让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而,在当前大量 customizing video generation model 的研究中,这个最基本的事实,却往往被忽视。

来自主题: AI技术研报
8230 点击    2025-12-30 09:52
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?

来自主题: AI技术研报
7489 点击    2025-12-29 14:35