AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
8134 点击    2025-11-28 09:28
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。

来自主题: AI技术研报
10064 点击    2025-11-27 15:01
编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。

来自主题: AI技术研报
10154 点击    2025-11-27 15:00
通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

脑机接口(Brain-Computer Interface, BCI)被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景,核心在于高精度的脑信号解码,即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。

来自主题: AI技术研报
9476 点击    2025-11-27 14:59
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

智能体终于拥有了可以海量复制的“实战演练场”。阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。

来自主题: AI技术研报
7911 点击    2025-11-27 10:57
谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

前些天,一项「AI 传心术」的研究在技术圈炸开了锅:机器不用说话,直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效,也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报
7560 点击    2025-11-27 10:11
预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

既然语言可以当序列来学,那图像能不能也当序列来学?

来自主题: AI技术研报
8572 点击    2025-11-27 10:10
超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

Xsignal AI Holo(AI 全息)数据库显示,中国移动互联网的AI落地已彻底分化为两条路径:以微信、抖音的AI搜索为代表的“AI Overview (AIO)”旨在筑起认知的长城,将决策锁定在生态内部;而以QQ浏览器QBot为代表的“Agent in App (AIA)”则正演变为主动式的“数字员工”,重构服务分发的主权。

来自主题: AI技术研报
7777 点击    2025-11-27 10:08
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。

来自主题: AI技术研报
9631 点击    2025-11-27 09:48
从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

科学发现的轨迹,如同交织在人类历史中的璀璨织锦,经历了一系列范式的演进。早期的探索,主要依赖于由直觉、反复试验或机缘巧合驱动的经验发现。随后,以牛顿力学为代表的理论框架,为我们洞察自然现象的基本原理提供了基石。

来自主题: AI技术研报
6666 点击    2025-11-27 09:44
OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。

来自主题: AI技术研报
9142 点击    2025-11-26 15:14
RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

Google宣判RAG死刑!那条曾让无数工程师自豪的技术链,如今只剩下一行API调用。Gemini的File Search,把检索、分块、索引、引用,全都封进了模型内部。开发者不再需要理解流程,只需要上传文件。当智能被自动化吞并,工程师第一次发现,自己也成了被自动化的一部分。

来自主题: AI技术研报
10246 点击    2025-11-26 15:14
告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

告别静态操控:新型AI可穿戴贴片,可在运动中精准识别手势控制机械臂

美国加州大学圣地亚哥分校(UCSD)徐升教授对 DeepTech 表示:“很荣幸我们的工作成为 Nature Sensors 期刊的首篇论文,我们第一次通过 AI 的方法实现了在动态下抗运动伪影的人机交互,应用场景包括可穿戴和移动设备的手势控制、机器人遥操作、AR/VR 动作追踪、游戏、康复与辅助设备、工业与军事训练、健康与运动监测、

来自主题: AI技术研报
7498 点击    2025-11-26 14:38
告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

在AI视频创作过程中,创作者常因频繁切换多种工具而疲惫,导致创作热情消磨。近期,多所高校联合开源的UniVA框架,像一位「AI导演」,能整合多种视频工具,提供从脚本到成片的一站式自动化体验,改变传统「抽卡」式创作,支持多轮交互和主动纠错,还能实现风格迁移、前传创作等功能,为视频创作带来高效与便捷。

来自主题: AI技术研报
9078 点击    2025-11-26 14:37
中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

中兴发了一篇论文,洞察AI更前沿的探索方向

当大模型参数量冲向万亿级,GPT-4o、Llama4 等模型不断刷新性能上限时,AI 行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显,通用人工智能(AGI)的实现路径亟待突破。

来自主题: AI技术研报
7109 点击    2025-11-26 13:47
NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个共同的瓶颈:推理时间长、算力成本高、生成速度难以提升。随着视频生成长度持续增加、分辨率不断提高,这个瓶颈正在成为影响视频创作体验的主要障碍之一。

来自主题: AI技术研报
7586 点击    2025-11-26 13:46
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报
7796 点击    2025-11-26 09:13
浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

浅谈一下RLVR&SFT分别对模型显性知识学习和隐参数空间结构扰动背后的一些猜想

最近不论是在学术圈还是产业实践中,对于RLVR和传统SFT之间的区别与联系,以及RL本身基于奖励建模反馈机制并结合不同的策略优化算法过程中对模型显性知识的学习和隐参数空间的变化的讨论热度一直很高。

来自主题: AI技术研报
6274 点击    2025-11-26 09:12
别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

别装了,AI巨头们!谁在卡脖子,谁在割韭菜?这张图一目了然

卡内基梅隆揭秘美国AI产业链:谁能扼住AI的喉咙?OpenAI和迪士尼如何捆绑,AMD、软银和英伟达究竟在下哪盘棋?卡内基梅隆大学刚刚抛出一颗「产业核弹」:首个系统刻画数据、算力、模型、资本乃至人才流向的AI供应链数据集。

来自主题: AI技术研报
8220 点击    2025-11-25 16:35
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

在推荐系统迈向多模态的今天,如何兼顾数据隐私与个性化图文理解?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队,提出全新框架 FedVLR。该工作解决了联邦环境下多模态融合的异质性难题,已被人工智能顶级会议 AAAI 2026 接收为 Oral Presentation。

来自主题: AI技术研报
8058 点击    2025-11-25 15:30