AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动

三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动

三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动

我们希望具身机器人真正走进真实世界,尤其走进每个人的家里,帮我们完成浇花、收纳、清洁等日常任务。但家庭环境不像实验室那样干净、单一、可控:物体种类多、摆放杂、随时会变化,这让机器人在三维物理世界中「看懂并做好」变得更难。

来自主题: AI技术研报
8534 点击    2025-12-31 08:32
给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

给AI做微创手术:哈工大博士生发明新算法,5分钟让大模型减重近半

作为一名 AI 领域的博士生,徐玉庄的经历比较特殊。本科毕业于国防科技大学,随后在部队工作了 5 年,接着在清华大学获得硕士学位,目前在哈尔滨工业大学读博。

来自主题: AI技术研报
6833 点击    2025-12-31 08:30
必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。

来自主题: AI技术研报
7791 点击    2025-12-31 08:29
Meta病急乱投医,Manus用户少了70%,还要花数十亿美金收购?|非凡产研用数据带来真相

Meta病急乱投医,Manus用户少了70%,还要花数十亿美金收购?|非凡产研用数据带来真相

Meta病急乱投医,Manus用户少了70%,还要花数十亿美金收购?|非凡产研用数据带来真相

Manus被Meta收购的消息在AI圈刷屏了。 交易细节尚未完全公开,但Meta的态度很明确:它不仅要把Manus的能力整合进自家产品(包括Meta AI),还计划继续把Manus作为独立服务运营和销

来自主题: AI技术研报
7951 点击    2025-12-30 17:25
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报
8306 点击    2025-12-30 15:14
我招了 6 个 AI 员工一起干活

我招了 6 个 AI 员工一起干活

我招了 6 个 AI 员工一起干活

大家好,我是艾逗笔。 今天我花了一天时间,招聘了 6 个 AI 员工,帮助他们走完了入职流程,给他们分配了工作权限,了解了他们各自的特点和能力,然后安排了一个工作间,让他们在一起开始干活了。

来自主题: AI技术研报
6723 点击    2025-12-30 11:13
告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

告别“音画割裂”与“人物崩坏”!AutoMV:首个听懂歌词、卡准节拍的开源全曲级MV生成Agent

现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

来自主题: AI技术研报
7285 点击    2025-12-30 10:29
全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

全景视觉的Depth Anything来了!Insta360推出DAP,200万数据打造全场景360°空间智能新高度

在空间智能(Spatial Intelligence)飞速发展的今天,全景视角因其 360° 的环绕覆盖能力,成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而,全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报
5840 点击    2025-12-30 09:57
SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

在电影与虚拟制作中,「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化,让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而,在当前大量 customizing video generation model 的研究中,这个最基本的事实,却往往被忽视。

来自主题: AI技术研报
8230 点击    2025-12-30 09:52
AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架—— GAPS(Grounding, Adequacy, Perturbation, Safety),及其配套评测集 GAPS-NSCLC-preview。

来自主题: AI技术研报
9604 点击    2025-12-29 15:06
AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

AI4S回归白盒符号主义,清华等联合发布SR-LLM:自主发现科学知识

清华大学等多所高校联合发布SR-LLM,这是一种融合大语言模型与深度强化学习的符号回归框架。它通过检索增强和语义推理,从数据中生成简洁、可解释的数学模型,显著优于现有方法。在跟车行为建模等任务中,SR-LLM不仅复现经典模型,还发现更优新模型,为机器自主科学发现开辟新路径。

来自主题: AI技术研报
9558 点击    2025-12-29 14:37
QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?

来自主题: AI技术研报
7490 点击    2025-12-29 14:35
AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。

来自主题: AI技术研报
8989 点击    2025-12-29 14:06
今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键

今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键

今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键

TRAE在一年里写了1000亿行代码!如果按照一个程序员每天写100行有效代码计算,这相当于300万个程序员不吃不喝、没日没夜干了一整年。而这也仅仅是《TRAE 2025年度产品报告》中的冰山一角,更多惊人的数据还包括:

来自主题: AI技术研报
7154 点击    2025-12-29 13:38
开源模型质变:Claude Code 超级小白入门指南

开源模型质变:Claude Code 超级小白入门指南

开源模型质变:Claude Code 超级小白入门指南

两个月以来,我一直想写一篇给小白的 CC 入门指南,今天终于可以写了。

来自主题: AI技术研报
7314 点击    2025-12-29 10:06
不会用命令行?Claude Code图形化界面完全指南

不会用命令行?Claude Code图形化界面完全指南

不会用命令行?Claude Code图形化界面完全指南

面对苍白的CLI终端界面,有些深度依赖IDE的使用者,用Claude Code还是会不习惯的。于是我找了蛮多的资料,看看有没有适合新手的GUI工具。

来自主题: AI技术研报
6638 点击    2025-12-29 10:05
告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑

告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑

告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑

近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-of-Thought)往往就开始「吃力」:容易被早期判断带偏、发散不足、自我纠错弱,而且顺序生成的效率天然受限。

来自主题: AI技术研报
10003 点击    2025-12-29 09:36
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报
9309 点击    2025-12-29 09:07
华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神

华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神

华人一作!Meta等复刻AlphaZero神话,AI甩开人类自修成神

当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。

来自主题: AI技术研报
9523 点击    2025-12-29 09:06
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解和生成整合到统一架构中,从而实现模态间的协同交互。

来自主题: AI技术研报
8602 点击    2025-12-29 09:05