AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式

从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式

从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式

不知道有多少人曾为了让数据图表既“好看”又“好懂”,而在设计软件与代码编辑器之间反复横跳,熬到“头秃”。

来自主题: AI技术研报
8570 点击    2026-01-21 12:00
马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer

马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer

马斯克刚刚真把 𝕏 平台推荐算法给开源了,核心也是Transformer

刚刚,𝕏 平台(原 Twitter 平台)公布了全新的开源消息:已将全新的推荐算法开源,该算法由与 xAI 的 Grok 模型相同的 Transformer 架构驱动。

来自主题: AI技术研报
9954 点击    2026-01-21 10:40
AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention:每个 token 都能和所有 token 对话,效果强,但代价也直观 —— 复杂度随 token 数平方增长,分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发(attention),或从 “扩散 / 传导” 出发(热方程类方法)。但热方程本质上是一个强低通滤波器:随着传播时间增加,高频细节(边缘、纹理)会迅速消失,导致特征过平滑。

来自主题: AI技术研报
8009 点击    2026-01-21 10:39
EmbodiChain开源,用100%生成式数据自动训练具身智能模型

EmbodiChain开源,用100%生成式数据自动训练具身智能模型

EmbodiChain开源,用100%生成式数据自动训练具身智能模型

大语言模型的爆发,让大家见证了 Scaling Law 的威力:只要数据够多、算力够猛,智能似乎就会自动涌现。但在机器人领域,这个公式似乎失效了。

来自主题: AI技术研报
5871 点击    2026-01-20 17:21
AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

AI人格集体黑化?Anthropic首次「赛博切脑」,物理斩断毁灭指令

不要被AI的温柔表象欺骗! Anthropic最新研究刺穿了AGI的温情假象:你以为在和良师益友倾诉,其实是在悬崖边给「杀手」松绑。 当脆弱情感遇上激活值坍塌,RLHF防御层将瞬间溃缩。既然无法教化野兽,人类只能选择最冷酷的「赛博脑叶切除术」。

来自主题: AI技术研报
7143 点击    2026-01-20 16:39
TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法

上下文分割(In-Context Segmentation)旨在通过参考示例指导模型实现对特定目标的自动化分割。尽管 SAM 凭借卓越的零样本泛化能力为此提供了强大的基础,但将其应用于此仍受限于提示(如点或框)构建,这样的需求不仅制约了批量推理的自动化效率,更使得模型在处理复杂的连续视频时,难以维持时空一致性。

来自主题: AI技术研报
7779 点击    2026-01-20 16:36
首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

首篇具身智能机器人「安全」综述:LLM如何跨越物理鸿沟?

最新综述首次系统探讨LLM控制机器人的安全威胁、防御机制与未来挑战,指出LLM的具身鸿沟导致其在物理空间可能执行危险动作,而现有防御体系存在逻辑与物理脱节等问题。

来自主题: AI技术研报
7832 点击    2026-01-20 16:35
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务

想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的难题:要么忘了插电,要么找不到水壶,甚至会把柜门把手错当成开关一通乱按。

来自主题: AI技术研报
7997 点击    2026-01-20 10:57
你的论文有novelty吗?复旦搞了个顶会论文查新系统

你的论文有novelty吗?复旦搞了个顶会论文查新系统

你的论文有novelty吗?复旦搞了个顶会论文查新系统

ICLR 2026 的 Rebuttal 结束了。当 OpenReview 上的喧嚣散去,我们发现,作者与审稿人之间漫长的拉锯战,最终往往只剩下一个核心分歧:「这个想法,以前真的没人做过吗?」

来自主题: AI技术研报
7931 点击    2026-01-19 16:45
效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026

当你在电商平台搜索“苹果”,系统会推荐“水果”还是“手机”?或者直接跳到某个品牌旗舰店?短短一个词,背后承载了完全不同的购买意图。而推荐是否精准,直接影响用户的搜索体验,也影响平台的转化效率。

来自主题: AI技术研报
10003 点击    2026-01-19 15:15
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟,但当前普遍使用的传统模型在训练时对数据要求较高,需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报
7752 点击    2026-01-19 15:13
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

近日,清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能!

来自主题: AI技术研报
7031 点击    2026-01-19 15:13
打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

打造中国的Skild AI,复旦教授要让每个机器人拥有可自主进化的通用大脑

2025年,风光无限的机器人们在Demo中大秀绝活,从叠衣服、工厂和物流站分拣包裹,到零售店卖货……它们忙碌的身影存在于各种各样的场景中。但回到现实世界,具身智能真正参与的生活和生产环节,却少之又少。

来自主题: AI技术研报
7013 点击    2026-01-19 09:37
Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔

在日常工作和学习中,笔记管理一直是个让人头疼的问题。传统的笔记工具要么功能单一,要么需要手动绘制各种图表和整理格式。特别是当我们需要制作知识结构图、思维导图或者将内容转化为不同风格的笔记时,往往需要花费大量时间和精力。

来自主题: AI技术研报
7485 点击    2026-01-19 09:35
任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

任意条件,「可控」文生图扩散模型综述 | TPAMI'25

北邮最新综述探讨了文生图扩散模型的可控生成技术,总结了在文本条件之外引入新条件信号的方法,从任务和方法两个层面梳理了可控生成技术。

来自主题: AI技术研报
8169 点击    2026-01-19 08:55
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍

随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业共识下,从量化、剪枝到模型蒸馏,各类压缩技术竞相涌现,但往往难以兼顾性能损耗与通用性。

来自主题: AI技术研报
9783 点击    2026-01-19 08:54
机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

机器人终于能用明白洗碗机了|UC伯克利新研究

在家庭厨房自主使用洗碗机,在办公室边移动边擦拭白板——这些人类习以为常的场景,对人形机器人来说,却是需要调动全身关节协同运作才能完成的“高难度挑战”。

来自主题: AI技术研报
9990 点击    2026-01-19 08:53
开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

开源8300小时标注数据,新一代实时通用游戏AI Pixel2Play发布

来自 Player2 的研究员们提出了 Pixel2Play(P2P)模型,该模型以游戏画面和文本指令作为输入,直接输出对应的键盘与鼠标操作信号。在消费级显卡 RTX 5090 上,P2P 可以实现超过 20Hz 的端到端推理速度,从而能够真正像人类一样和游戏进行实时交互。P2P 作为通用游戏基座模型,在超过 40 款游戏、总计 8300 + 小时的游戏数据上进行了训练,

来自主题: AI技术研报
7423 点击    2026-01-18 15:01
Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

Gemini准确率从21%飙到97%!谷歌只用了这一招:复制粘贴

简单到难以置信!近日,Google Research一项新研究发现:想让大模型在不启用推理设置时更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提升到97.33%!

来自主题: AI技术研报
9057 点击    2026-01-18 14:58