AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造

智东西11月28日报道,刚刚,快手开源其新一代旗舰多模态大模型Keye-VL-671B-A37B。该模型基于DeepSeek-V3-Terminus打造,拥有6710亿个参数,在保持基础模型通用能力的前提下,对视觉感知、跨模态对齐与复杂推理链路进行了升级,实现了较强的多模态理解和复杂推理能力。

来自主题: AI技术研报
8250 点击    2025-11-29 20:12
17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读

而今天,来自 UIUC、华盛顿大学等机构的一群研究人员,通过一篇重磅论文《推理的认知基础及其在大型语言模型中的体现》,为这个“认知鸿沟”画出了一张精确的微观解剖图。

来自主题: AI技术研报
7467 点击    2025-11-29 20:10
NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

REG 是一种简单而有效的方法,仅通过引入一个 class token 便能大幅加速生成模型的训练收敛。其将基础视觉模型(如 DINOv2)的 class token 与 latent 在空间维度拼接后共同加噪训练,从而显著提升 Diffusion 的收敛速度与性能上限。在 ImageNet 256×256 上,

来自主题: AI技术研报
6387 点击    2025-11-29 13:46
混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型!这是一款商业级、开源且轻量(1B参数)的OCR专用视觉语言模型,模型采用原生ViT和轻量LLM结合的架构。目前,该模型在抱抱脸(Hugging Face)趋势榜排名前四,GitHub标星超过700,并在Day 0被vllm官方团队接入。

来自主题: AI技术研报
7138 点击    2025-11-29 13:43
RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一

RAG效果不及预期,试试这10个上下文处理优化技巧。对大部分开发者来说,搭一个RAG或者agent不难,怎么把它优化成生产可用的状态最难。在这个过程中,检索效率、准确性、成本、响应速度,都是重点关注问题。

来自主题: AI技术研报
7456 点击    2025-11-29 10:03
北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%

具身智能的「ChatGPT时刻」还没到,机器人的「幻觉」却先来了?在需要几十步操作的长序列任务中,现有的VLA模型经常「假装在干活」,误以为任务完成。针对这一痛点,北京大学团队提出自进化VLA框架EvoVLA。该模型利用Gemini生成「硬负样本」进行对比学习,配合几何探索与长程记忆,在复杂任务基准Discoverse-L上将成功率提升了10.2%,并将幻觉率从38.5%大幅降至14.8%。

来自主题: AI技术研报
7419 点击    2025-11-29 09:58
为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

为什么记忆成为下一代 AI 的「核心变量」 | GAIR Live 20

人工智能在过去的十年中,以惊人的速度革新了信息处理和内容生成的方式。然而,无论是大语言模型(LLM)本体,还是基于检索增强生成(RAG)的系统,在实际应用中都暴露出了一个深层的局限性:缺乏跨越时间的、可演化的、个性化的“记忆”。它们擅长瞬时推理,却难以实现持续积累经验、反思历史、乃至真正像人一样成长的目标。

来自主题: AI技术研报
7383 点击    2025-11-29 09:56
谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

谁将为这场史上最昂贵的AI军备竞赛买单?|大公司

过去数周,英伟达股价经历了一轮高位回调与震荡。目前市值相较于一个月前的高点已下降15.4%。虽然一周前最新季度财报发布后,公司超预期的业绩表现一定程度上稳定了市场信心,但隔天股价的下跌反映着情绪底色依然是消极的。

来自主题: AI技术研报
7194 点击    2025-11-28 13:54
生成式AI赋能需求工程:一场正在发生的变革

生成式AI赋能需求工程:一场正在发生的变革

生成式AI赋能需求工程:一场正在发生的变革

在软件开发领域,需求工程(Requirements Engineering, RE)一直是项目成功的关键环节。然而,传统 RE 方法面临着效率低下、需求变更频繁等挑战。根据 Standish Group 的报告,仅有 31% 的软件项目能在预算和时间内完成,而需求相关问题导致的项目失败率高达 37%。

来自主题: AI技术研报
8983 点击    2025-11-28 10:39
RAG效果要提升,先搞定高质量Context Pruning

RAG效果要提升,先搞定高质量Context Pruning

RAG效果要提升,先搞定高质量Context Pruning

Context Pruning如何结合rerank,优化RAG上下文?

来自主题: AI技术研报
8464 点击    2025-11-28 10:05
AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K、MMLU等数据集的数据质量直接决定了评估结论的可靠性。

来自主题: AI技术研报
7907 点击    2025-11-28 09:28
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标

从单张图像创建可编辑的 3D 模型是计算机图形学领域的一大挑战。传统的 3D 生成模型多产出整体式的「黑箱」资产,使得对个别部件进行精细调整几乎成为不可能。

来自主题: AI技术研报
9900 点击    2025-11-27 15:01
编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

编舞人失业!南理工+清华+南大新作:一首歌实现高质量和谐群舞

当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。

来自主题: AI技术研报
9998 点击    2025-11-27 15:00
通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号

脑机接口(Brain-Computer Interface, BCI)被视为连接人类智能与人工智能的终极界面。要真正实现这一愿景,核心在于高精度的脑信号解码,即让通用 AI 模型能够真正「读懂」复杂多变的脑活动。

来自主题: AI技术研报
9324 点击    2025-11-27 14:59
ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

智能体终于拥有了可以海量复制的“实战演练场”。阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。

来自主题: AI技术研报
7767 点击    2025-11-27 10:57
谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

谢赛宁与Jaakkola团队重磅研究:无数据Flow Map蒸馏

前些天,一项「AI 传心术」的研究在技术圈炸开了锅:机器不用说话,直接抛过去一堆 Cache 就能交流。让人们直观感受到了「去语言化」的高效,也让机器之心那条相关推文狂揽 85 万浏览量。参阅报道《用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出 Cache-to-Cache 模型通信新范式》。

来自主题: AI技术研报
7389 点击    2025-11-27 10:11
预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

预测下一个像素还需要几年?谷歌:五年够了

既然语言可以当序列来学,那图像能不能也当序列来学?

来自主题: AI技术研报
8434 点击    2025-11-27 10:10
超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

超级APP的AI战略:中国互联网巨头的流量保卫战与Agent新物种

Xsignal AI Holo(AI 全息)数据库显示,中国移动互联网的AI落地已彻底分化为两条路径:以微信、抖音的AI搜索为代表的“AI Overview (AIO)”旨在筑起认知的长城,将决策锁定在生态内部;而以QQ浏览器QBot为代表的“Agent in App (AIA)”则正演变为主动式的“数字员工”,重构服务分发的主权。

来自主题: AI技术研报
7416 点击    2025-11-27 10:08
突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

突破视觉-语言-动作模型的瓶颈:QDepth-VLA让机器人拥有更精准的3D空间感知

视觉-语言-动作模型(VLA)在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型(VLM)动作生成能力,机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而,这类模型在应对长时序或精细操作任务时,仍然存在性能下降的现象。

来自主题: AI技术研报
9456 点击    2025-11-27 09:48
从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

从1965到2025,AI智能体终于向科学家开刀了……

科学发现的轨迹,如同交织在人类历史中的璀璨织锦,经历了一系列范式的演进。早期的探索,主要依赖于由直觉、反复试验或机缘巧合驱动的经验发现。随后,以牛顿力学为代表的理论框架,为我们洞察自然现象的基本原理提供了基石。

来自主题: AI技术研报
6421 点击    2025-11-27 09:44
OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。

来自主题: AI技术研报
8956 点击    2025-11-26 15:14
RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

RAG被判死刑:Google用一行API架空工程师!

Google宣判RAG死刑!那条曾让无数工程师自豪的技术链,如今只剩下一行API调用。Gemini的File Search,把检索、分块、索引、引用,全都封进了模型内部。开发者不再需要理解流程,只需要上传文件。当智能被自动化吞并,工程师第一次发现,自己也成了被自动化的一部分。

来自主题: AI技术研报
10116 点击    2025-11-26 15:14