AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
EmbodiChain开源,用100%生成式数据自动训练具身智能模型

EmbodiChain开源,用100%生成式数据自动训练具身智能模型

EmbodiChain开源,用100%生成式数据自动训练具身智能模型

大语言模型的爆发,让大家见证了 Scaling Law 的威力:只要数据够多、算力够猛,智能似乎就会自动涌现。但在机器人领域,这个公式似乎失效了。

来自主题: AI技术研报
6013 点击    2026-01-20 17:21
AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

不要被AI的温柔表象欺骗! Anthropic最新研究刺穿了AGI的温情假象:你以为在和良师益友倾诉,其实是在悬崖边给「杀手」松绑。 当脆弱情感遇上激活值坍塌,RLHF防御层将瞬间溃缩。既然无法教化野兽,人类只能选择最冷酷的「赛博脑叶切除术」。

来自主题: AI技术研报
7260 点击    2026-01-20 16:39
TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。

来自主题: AI技术研报
7905 点击    2026-01-20 16:36
首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

最新综述首次系统探讨LLM控制机器人的安全威胁、防御机制与未来挑战,指出LLM的具身鸿沟导致其在物理空间可能执行危险动作,而现有防御体系存在逻辑与物理脱节等问题。

来自主题: AI技术研报
7939 点击    2026-01-20 16:35
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的难题:要么忘了插电,要么找不到水壶,甚至会把柜门把手错当成开关一通乱按。

来自主题: AI技术研报
8132 点击    2026-01-20 10:57
你的论文有novelty吗?复旦搞了个顶会论文查新系统

你的论文有novelty吗?复旦搞了个顶会论文查新系统

你的论文有novelty吗?复旦搞了个顶会论文查新系统

ICLR 2026 的 Rebuttal 结束了。当 OpenReview 上的喧嚣散去,我们发现,作者与审稿人之间漫长的拉锯战,最终往往只剩下一个核心分歧:「这个想法,以前真的没人做过吗?」

来自主题: AI技术研报
8015 点击    2026-01-19 16:45
效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

当你在电商平台搜索“苹果”,系统会推荐“水果”还是“手机”?或者直接跳到某个品牌旗舰店?短短一个词,背后承载了完全不同的购买意图。而推荐是否精准,直接影响用户的搜索体验,也影响平台的转化效率。

来自主题: AI技术研报
10095 点击    2026-01-19 15:15
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟,但当前普遍使用的传统模型在训练时对数据要求较高,需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报
7896 点击    2026-01-19 15:13
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

近日,清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能!

来自主题: AI技术研报
7134 点击    2026-01-19 15:13
打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

2025年,风光无限的机器人们在Demo中大秀绝活,从叠衣服、工厂和物流站分拣包裹,到零售店卖货……它们忙碌的身影存在于各种各样的场景中。但回到现实世界,具身智能真正参与的生活和生产环节,却少之又少。

来自主题: AI技术研报
7165 点击    2026-01-19 09:37
Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

在日常工作和学习中,笔记管理一直是个让人头疼的问题。传统的笔记工具要么功能单一,要么需要手动绘制各种图表和整理格式。特别是当我们需要制作知识结构图、思维导图或者将内容转化为不同风格的笔记时,往往需要花费大量时间和精力。

来自主题: AI技术研报
7693 点击    2026-01-19 09:35
任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术,总结了在文本条件之外引入新条件信号的方法,从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报
8271 点击    2026-01-19 08:55
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下,从量化、剪枝到模型蒸馏,各类压缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报
9886 点击    2026-01-19 08:54
机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

在家庭厨房自主使用洗碗机,在办公室边移动边擦拭白板——这些人类习以为常的场景,对人形机器人来说,却是需要调动全身关节协同运作才能完成的“高难度挑战”。

来自主题: AI技术研报
10086 点击    2026-01-19 08:53
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

来自 Player2 的研究员们提出了 Pixel2Play(P2P)模型,该模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号。在消费级显卡 RTX 5090 上,P2P 可以实现超过 20Hz 的端到端推理速度,从而能够真正像人类一样和游戏进行实时交互。P2P 作为通用游戏基座模型,在超过 40 款游戏、总计 8300 + 小时的游戏数据上进行了训练,

来自主题: AI技术研报
7528 点击    2026-01-18 15:01
Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

来自主题: AI技术研报
9165 点击    2026-01-18 14:58
狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

狂飙、混战与定局:全球 AI 应用生态三年的结构性洗牌(2023-2025)

如果将2023年定义为AI的“奇点大爆炸”,那么站在2025年的终章回望,我们不得不承认:“百模大战”的硝烟已散,一个残酷而清晰的“双极化”新世界已然定型。2023-2025 这三年,全球 AI 应用市场完成了从“单点工具猎奇”向“双极化生态定局”的结构性跨越。

来自主题: AI技术研报
7789 点击    2026-01-18 14:58
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估

香港大学(The University of Hong Kong)与 Adobe Research 联合发布 Self-E(Self-Evaluating Model):一种无需预训练教师蒸馏、从零开始训练的任意步数文生图框架。其目标非常直接:让同一个模型在极少步数也能生成语义清晰、结构稳定的图像,同时在 50 步等常规设置下保持顶级质量,并且随着步数增加呈现单调提升。

来自主题: AI技术研报
8222 点击    2026-01-18 14:57
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了

今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的

来自主题: AI技术研报
7902 点击    2026-01-18 14:56
我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向

我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是:用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在:

来自主题: AI技术研报
7721 点击    2026-01-17 10:47
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化

近期,来自墨尔本大学和华中科技大学的研究者们发布了一篇深度综述,从 MLSys 的思维出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化方法进行了系统性梳理与深入分析,并将相关资源整理成了持续维护的 Awesome 资源库,方便研究者与从业人员快速定位与落地。

来自主题: AI技术研报
5611 点击    2026-01-16 14:24