AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

2025年,风光无限的机器人们在Demo中大秀绝活,从叠衣服、工厂和物流站分拣包裹,到零售店卖货……它们忙碌的身影存在于各种各样的场景中。但回到现实世界,具身智能真正参与的生活和生产环节,却少之又少。

来自主题: AI技术研报
6836 点击    2026-01-19 09:37
Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

在日常工作和学习中,笔记管理一直是个让人头疼的问题。传统的笔记工具要么功能单一,要么需要手动绘制各种图表和整理格式。特别是当我们需要制作知识结构图、思维导图或者将内容转化为不同风格的笔记时,往往需要花费大量时间和精力。

来自主题: AI技术研报
7203 点击    2026-01-19 09:35
任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术,总结了在文本条件之外引入新条件信号的方法,从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报
8015 点击    2026-01-19 08:55
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下,从量化、剪枝到模型蒸馏,各类压缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报
9631 点击    2026-01-19 08:54
机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

在家庭厨房自主使用洗碗机,在办公室边移动边擦拭白板——这些人类习以为常的场景,对人形机器人来说,却是需要调动全身关节协同运作才能完成的“高难度挑战”。

来自主题: AI技术研报
9854 点击    2026-01-19 08:53
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

来自 Player2 的研究员们提出了 Pixel2Play(P2P)模型,该模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号。在消费级显卡 RTX 5090 上,P2P 可以实现超过 20Hz 的端到端推理速度,从而能够真正像人类一样和游戏进行实时交互。P2P 作为通用游戏基座模型,在超过 40 款游戏、总计 8300 + 小时的游戏数据上进行了训练,

来自主题: AI技术研报
7285 点击    2026-01-18 15:01
Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

来自主题: AI技术研报
8919 点击    2026-01-18 14:58
狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

如果将2023年定义为AI的“奇点大爆炸”,那么站在2025年的终章回望,我们不得不承认:“百模大战”的硝烟已散,一个残酷而清晰的“双极化”新世界已然定型。2023-2025 这三年,全球 AI 应用市场完成了从“单点工具猎奇”向“双极化生态定局”的结构性跨越。

来自主题: AI技术研报
7495 点击    2026-01-18 14:58
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

香港大学(The University of Hong Kong)与 Adobe Research 联合发布 Self-E(Self-Evaluating Model):一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接:让同一个模型在极少步数也能生成语义清晰、结构稳定的图像,同时在 50 步等常规设置下保持顶级质量,并且随着步数增加呈现单调提升。

来自主题: AI技术研报
8015 点击    2026-01-18 14:57
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报
7669 点击    2026-01-18 14:56
我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是:用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在:

来自主题: AI技术研报
7532 点击    2026-01-17 10:47
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

近期,来自墨尔本大学和华中科技大学的研究者们发布了一篇深度综述,从 MLSys 的思维出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化方法进行了系统性梳理与深入分析,并将相关资源整理成了持续维护的 Awesome 资源库,方便研究者与从业人员快速定位与落地。

来自主题: AI技术研报
5431 点击    2026-01-16 14:24
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述

大语言模型(LLMs)的爆发式增长引领了人工智能领域的范式转移,取得了巨大的工程成功。然而,一个关键的悖论依然存在:尽管 LLMs 在实践中表现卓越,但其理论研究仍处于起步阶段,导致这些系统在很大程度上被视为难以捉摸的「黑盒」。

来自主题: AI技术研报
5641 点击    2026-01-16 10:09
DeepSeek连发两篇论文背后,原来藏着一场学术接力

DeepSeek连发两篇论文背后,原来藏着一场学术接力

DeepSeek连发两篇论文背后,原来藏着一场学术接力

2026 年 1 月过半,我们依然没有等来 DeepSeek V4,但它的模样已经愈发清晰。

来自主题: AI技术研报
9905 点击    2026-01-16 10:06
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」

胡宇航(网名 “U 航”),毕业于美国哥伦比亚大学,博士学位,首形科技创始人。长期专注于机器人自主学习的研究工作。研究成果发表于《Nature Machine Intelligence》,《Science Robotics》等国际顶级期刊。

来自主题: AI技术研报
6799 点击    2026-01-16 10:03
仅需一个混频器的无线射频机器学习推理,登上Science Advances!

仅需一个混频器的无线射频机器学习推理,登上Science Advances!

仅需一个混频器的无线射频机器学习推理,登上Science Advances!

机器学习部署在边端设备的时候,模型总是存储在云端服务器上(5G 基站),而模型输入输出总是在边端设备上(例如用照相机拍摄照片然后识别其中的目标)。在这种场景下,传统有以下两种方案完成机器学习的推理:

来自主题: AI技术研报
9379 点击    2026-01-16 10:01
不得了,这个新技术把视频压缩到了0.02%!

不得了,这个新技术把视频压缩到了0.02%!

不得了,这个新技术把视频压缩到了0.02%!

感谢AI!

来自主题: AI技术研报
6736 点击    2026-01-15 10:35
“Claude Cowork 杀死了我的创业公司”

“Claude Cowork 杀死了我的创业公司”

“Claude Cowork 杀死了我的创业公司”

AI 不再仅仅是操作和交互的对象,它开始成为 Coworker。

来自主题: AI技术研报
9052 点击    2026-01-15 09:27
让Agent记住一切是愚蠢的:SimpleMem用「结构化语义压缩」登顶记忆SOTA

让Agent记住一切是愚蠢的:SimpleMem用「结构化语义压缩」登顶记忆SOTA

让Agent记住一切是愚蠢的:SimpleMem用「结构化语义压缩」登顶记忆SOTA

如果人类的大脑像现在的LLM Agent一样工作,记住每一句今天明天的废话,我们在五岁时就会因为内存溢出而宕机。真正的智能,核心不在于“存储”,而在于高效的“遗忘”与“重组”。

来自主题: AI技术研报
8224 点击    2026-01-15 09:22
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报
9670 点击    2026-01-15 09:20
官宣,Milvus开源语义高亮模型:告别饱和检索,帮RAG、agent剪枝80%上下文

官宣,Milvus开源语义高亮模型:告别饱和检索,帮RAG、agent剪枝80%上下文

官宣,Milvus开源语义高亮模型:告别饱和检索,帮RAG、agent剪枝80%上下文

RAG与agent用到深水区,一定会遇到这个问题: 明明架构很完美,私有数据也做了接入,但项目上线三天,不但token账单爆了,模型输出结果也似乎总差点意思。

来自主题: AI技术研报
9001 点击    2026-01-15 09:19
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

一个智能驾驶系统,在迈向高阶自动驾驶的过程中,应当具备何种能力?除了基础的感知、预测、规划、决策能力,如何对三维空间进行更深入的理解?如何具备包含法律法规、道德原则、防御性驾驶原则等知识?如何进行基本的视觉 - 语言推理?如何让智能系统具备世界观和价值观?

来自主题: AI技术研报
7495 点击    2026-01-15 09:18
这一次,谷歌Veo 3.1教Sora做视频!角色0变形,4K竖屏直接满分

这一次,谷歌Veo 3.1教Sora做视频!角色0变形,4K竖屏直接满分

这一次,谷歌Veo 3.1教Sora做视频!角色0变形,4K竖屏直接满分

今天,谷歌Veo 3.1终于迎来重磅升级,表现力直接爆表! 这一次,谷歌特别优化了移动端体验。只需上传一些「素材图片」(ingredient images),就能轻松创作出更有趣、更有创意、画质极佳的视频。

来自主题: AI技术研报
7399 点击    2026-01-14 17:07
500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

来自主题: AI技术研报
7335 点击    2026-01-14 15:35