AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

清华00后揪出AI幻觉元凶:仅0.1%神经元,一按就老实

近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。

来自主题: AI技术研报
7511 点击    2026-01-08 09:25
谷歌看了都沉默:自家「黑科技」火了,但为啥研发团队一无所知?

谷歌看了都沉默:自家「黑科技」火了,但为啥研发团队一无所知?

谷歌看了都沉默:自家「黑科技」火了,但为啥研发团队一无所知?

当整个科技圈都在为「谷歌黑魔法」集体高潮时,真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」,不过是社交网络上AI生成的「赛博跳大神」。

来自主题: AI技术研报
8977 点击    2026-01-08 08:44
CC直接用,Manus核心Context技术被人做成了Skills

CC直接用,Manus核心Context技术被人做成了Skills

CC直接用,Manus核心Context技术被人做成了Skills

planning-with-files是开源社区最近疯传的一个Skill,发布仅四天收获3.3k star。目前还在持续增长。

来自主题: AI技术研报
9013 点击    2026-01-08 08:39
1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。

来自主题: AI技术研报
7044 点击    2026-01-07 18:35
Anthropic 社区负责人连更31条Claude Code技巧!比Claude Code创始人私藏的还硬核

Anthropic 社区负责人连更31条Claude Code技巧!比Claude Code创始人私藏的还硬核

Anthropic 社区负责人连更31条Claude Code技巧!比Claude Code创始人私藏的还硬核

昨天,Claude Code 的创造者 Boris Cherny 在 X 上发了一条长推,分享了他自己使用 CC 的 13 条私藏技巧,将近 400 万的阅读量,我昨天一睁眼几乎被刷屏了。

来自主题: AI技术研报
5761 点击    2026-01-07 17:25
分享6个平时我最常用的Prompt心法。

分享6个平时我最常用的Prompt心法。

分享6个平时我最常用的Prompt心法。

已经2026年了,其实还是看到很多朋友,说不知道怎么能更好的跟AI对话。

来自主题: AI技术研报
7709 点击    2026-01-07 17:24
prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

prompt比拖拉拽更适合新手做复杂agent!LangSmith+Milvus教程

过去一段时间,我们介绍了很多小白入门级的agent框架,也介绍了包括langchain在内的很多专业级agent搭建框架。

来自主题: AI技术研报
8052 点击    2026-01-07 17:23
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报
8390 点击    2026-01-07 17:22
大模型最难的AI Infra,用Vibe Coding搞定

大模型最难的AI Infra,用Vibe Coding搞定

大模型最难的AI Infra,用Vibe Coding搞定

Andrej Karpathy 大神力荐的 Vibe Coding,正在成为开发者的新宠。这种「只需聊一聊,AI 可以把功能写出来」的体验,极大提升了简单任务的开放效率。

来自主题: AI技术研报
7594 点击    2026-01-07 16:03
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step 等⼀系列基本原语,分离了算法设计等部分与分布式训练基础设施关联,

来自主题: AI技术研报
7715 点击    2026-01-07 15:30
开源1万小时具身智能数据,这家公司是为了什么?

开源1万小时具身智能数据,这家公司是为了什么?

开源1万小时具身智能数据,这家公司是为了什么?

想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报
9609 点击    2026-01-07 10:16
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化

对于电子产品,我们已然习惯了「出厂即巅峰」的设定:开箱的那一刻往往就是性能的顶点,随后的每一天都在折旧。

来自主题: AI技术研报
7698 点击    2026-01-07 10:14
Claude Code 实战一下午:它到底比普通大模型多做了什么?

Claude Code 实战一下午:它到底比普通大模型多做了什么?

Claude Code 实战一下午:它到底比普通大模型多做了什么?

这两年一直在关注 AI,Claude Code 给我带来的震撼,和当初 Nano Banana 在画图领域的革命,几乎是一个级别。

来自主题: AI技术研报
6003 点击    2026-01-07 10:12
新年第一周,智元这次发布,显露了雄心

新年第一周,智元这次发布,显露了雄心

新年第一周,智元这次发布,显露了雄心

现实世界不是 demo,人形机器人该如何进入真实世界?

来自主题: AI技术研报
8248 点击    2026-01-07 09:36
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?

2025 年,随着李飞飞等学者将 “空间智能”(Spatial Intelligence)推向聚光灯下,这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA,似乎 AI 在训练中已经更好地读懂了三维空间。

来自主题: AI技术研报
7900 点击    2026-01-07 09:36
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

新年刚至,陈天桥携手代季峰率先打响开源大模型的第一枪。

来自主题: AI技术研报
8381 点击    2026-01-06 16:50
真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge

文本领域的大模型满分选手,换成语音就集体挂科?大模型引以为傲的多轮对话逻辑,在真实人声面前竟然如此脆弱。Scale AI正式发布首个原生音频多轮对话基准Audio MultiChallenge,直接撕开了大模型靠合成语音评测维持的优等生假象。实验显示,强如Gemini 3 Pro在真实场景下的通过率也仅过半数,而GPT-4o Audio的表现更是令人大跌眼镜。

来自主题: AI技术研报
9057 点击    2026-01-06 16:46
为了解决95%AI项目的失败,我们需要让Agentic「回到未来」

为了解决95%AI项目的失败,我们需要让Agentic「回到未来」

为了解决95%AI项目的失败,我们需要让Agentic「回到未来」

您可能已经感受到了,从2025年开始到如今,全世界都在谈论Agentic AI或Agent(代理式AI)。从董事会到咨询公司,从更高级别的战略到街头巷尾,仿佛只要接入了大模型(LLM),所有的业务流程就能自动运转,效率就能翻倍。

来自主题: AI技术研报
10077 点击    2026-01-06 16:18
任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo是一种创新的AI视觉内容生成方法,能灵活组合图像和视频中的视觉概念,实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新,解决了现有方法在概念提取和组合上的问题,让AI真正理解并融合视觉元素。

来自主题: AI技术研报
5633 点击    2026-01-06 16:16
布局有志 l 头部公司的AI应用生态 l 中国

布局有志 l 头部公司的AI应用生态 l 中国

布局有志 l 头部公司的AI应用生态 l 中国

在上一篇《全载录丨Xsignal 全球AI应用行业年度报告丨2025》中,我们俯瞰了全球AI从“震撼期”迈入“深水区”的宏观版图。如果说那是一张新大陆的地图,那么今天,我们将目光聚焦于这场变革的“风暴眼”——中国头部科技公司的战略棋局。

来自主题: AI技术研报
8540 点击    2026-01-06 10:15
免费视频切片分析+脚本再创作,提示词分享。

免费视频切片分析+脚本再创作,提示词分享。

免费视频切片分析+脚本再创作,提示词分享。

嗨大家好!我是阿真! 本来想刚到2026年一开始就给大家卷个大的,没想到一躺平就完全起不来,于是到了今天才回归,而且发的还是个备用稿哎嘿。

来自主题: AI技术研报
8550 点击    2026-01-06 10:14
李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!

李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!

李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!

当全行业还在为昂贵的多视角数据焦头烂额时,中科院和CreateAI重磅推出NeoVerse,直接用百万单目视频砸开了4D世界模型的大门,让AI真正学会了理解开放世界。

来自主题: AI技术研报
5873 点击    2026-01-06 10:13
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报
7277 点击    2026-01-06 09:50
DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报
5110 点击    2026-01-06 09:30
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中,扩大生成模型规模往往能提升准确率,但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算,并保持检索与解码设置不变的前提下,系统比较了生成模型规模与检索语料规模的联合效应,发现扩充检索语料能够稳定增强 RAG,并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现,同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报
7373 点击    2026-01-06 09:30