AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报
6950 点击    2025-10-22 14:57
长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报
6639 点击    2025-10-22 14:52
SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

SIGGRAPH Asia 2025 | OmniPart框架,让3D内容创作像拼搭积木一样简单

在3D内容创作领域,如何像玩乐高一样,自由生成、编辑和组合对象的各个部件,一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为 OmniPart 的全新框架,巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。

来自主题: AI技术研报
6089 点击    2025-10-22 14:48
AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

在人工智能的广阔世界里,我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间,你觉得这些AI“牛马”还是缺了点什么?

来自主题: AI技术研报
8905 点击    2025-10-22 12:13
一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建

一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建

一张照片,一个3D「你」:计算所等提出HumanLift,实现高保真数字人重建

创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。

来自主题: AI技术研报
8873 点击    2025-10-22 12:07
比人类网瘾更可怕,AI患上“脑腐”后彻底没救

比人类网瘾更可怕,AI患上“脑腐”后彻底没救

比人类网瘾更可怕,AI患上“脑腐”后彻底没救

“脑腐”(Brain Rot)指的是接触了过多社交媒体的低质量、碎片化信息后,人类的精神和智力状态恶化,如同腐烂一般。它曾入选 2024 年牛津大学出版社年度热词。

来自主题: AI技术研报
7791 点击    2025-10-22 12:02
清华、快手提出AttnRL:让大模型用「注意力」探索

清华、快手提出AttnRL:让大模型用「注意力」探索

清华、快手提出AttnRL:让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手,到 GPT 系列展现出惊人的推理与语言能力,强化学习(Reinforcement Learning, RL)一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报
7440 点击    2025-10-22 11:46
AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

AGI前夜重磅:RL突破模型「认知上限」,真·学习发生了!

UC Berkeley、UW、AI2 等机构联合团队最新工作提出:在恰当的训练范式下,强化学习(RL)不仅能「打磨」已有能力,更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA,并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报
7699 点击    2025-10-22 11:33
豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

豆包是如何炼成的?字节放出自研万卡训练系统ByteRobust论文

近日,字节跳动一篇论文介绍了他们 LLM 训练基础设施 ByteRobust,引发广泛关注。现在,在训练基础设施层面上,我们终于知道字节跳动会如何稳健地训练豆包了。

来自主题: AI技术研报
8622 点击    2025-10-22 09:51
文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

AI新突破!DeepSeek-OCR以像素处理文本,压缩率小于1/10,基准测试领跑。开源一夜4.4k星,Karpathy技痒难耐,展望视觉输入的通用性。

来自主题: AI技术研报
7026 点击    2025-10-21 16:48
长生不老成真?哈佛AI数周破解「衰老密码」,人类寿命或迎重写

长生不老成真?哈佛AI数周破解「衰老密码」,人类寿命或迎重写

长生不老成真?哈佛AI数周破解「衰老密码」,人类寿命或迎重写

长生不老或将成真?近日,哈佛团队在AI系统K-Dense的助力下揭示衰老分阶段运行的秘密。科研不再是慢工出细活,而是一场AI驱动的全球军备竞赛。当长寿的密码被加速解码,人类是否已准备好面对更长的人生?

来自主题: AI技术研报
7030 点击    2025-10-21 16:37
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好

天天刷推,大模型的脑子也会坏掉。 终于有研究证明,互联网上的烂内容会让大模型得「脑腐」。 相信许多读者对「脑腐」这个词并不陌生,长时间沉浸在碎片化的网络信息中,我们经常会感到注意力下降、思维变钝。

来自主题: AI技术研报
6048 点击    2025-10-21 16:18
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略

今年,流匹配无疑是机器人学习领域的大热门:作为扩散模型的一种优雅的变体,流匹配凭借简单、好用的特点,成为了机器人底层操作策略的主流手段,并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的 ,LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。

来自主题: AI技术研报
7237 点击    2025-10-21 16:10
RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
6154 点击    2025-10-21 15:53
苹果AI选Mamba:Agent任务比Transformer更好

苹果AI选Mamba:Agent任务比Transformer更好

苹果AI选Mamba:Agent任务比Transformer更好

都说苹果AI慢半拍,没想到新研究直接在Transformer头上动土。(doge) 「Mamba+工具」,在Agent场景更能打!

来自主题: AI技术研报
7872 点击    2025-10-21 15:48
突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」

在金融、医疗等高度敏感的应用场景中,拜占庭鲁棒联邦学习(BRFL)能够有效避免因数据集中存储而导致的隐私泄露风险,同时防止恶意客户端对模型训练的攻击。然而,即使是在模型更新的过程中,信息泄露的威胁仍然无法完全规避。为了解决这一问题,全同态加密(FHE)技术通过在密文状态下进行安全计算,展现出保护隐私信息的巨大潜力。

来自主题: AI技术研报
7216 点击    2025-10-21 15:44
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升

现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。

来自主题: AI技术研报
6820 点击    2025-10-21 15:30
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速

微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速

微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速

大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。

来自主题: AI技术研报
6441 点击    2025-10-21 11:43
有效的 Context 工程(精读、万字梳理)|见知录 004

有效的 Context 工程(精读、万字梳理)|见知录 004

有效的 Context 工程(精读、万字梳理)|见知录 004

近日刚好得了空闲,在研读 Anthropic 官方技术博客和一些相关论文,主题是「Agent 与 Context 工程」。2025 年 6 月以来,原名为「Prompt Engineering」的提示词工程,在 AI Agent 概念日趋火热的应用潮中,

来自主题: AI技术研报
7754 点击    2025-10-21 10:21
告别「偏科」,UniVid实现视频理解与生成一体化

告别「偏科」,UniVid实现视频理解与生成一体化

告别「偏科」,UniVid实现视频理解与生成一体化

在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。

来自主题: AI技术研报
7955 点击    2025-10-21 10:17
RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。

来自主题: AI技术研报
8713 点击    2025-10-21 10:05
MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

MIT成果登Nature正刊:90天,「AI科学家」完成3500次电化学测试

美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文,展示了一种多模态机器人平台CRESt(Copilot for Real-world Experimental Scientists),通过将多模态模型(融合文本知识、化学成分以及微观结构信息)驱动的材料设计与高通量自动化实验相结合,大幅提升催化剂的研发速度和质量。

来自主题: AI技术研报
7819 点击    2025-10-20 15:36
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题

Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题

Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题

随着大型语言模型(LLM)朝着通用能力迈进,并以通用人工智能(AGI)为最终目标,测试其生成问题的能力也正变得越来越重要。尤其是在将 LLM 应用于高级编程任务时,因为未来 LLM 编程能力的发展和经济整合将需要大量的验证工作。

来自主题: AI技术研报
7753 点击    2025-10-20 15:13
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」

无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」

无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」

在机器人学习领域,提升基于生成式模型的控制策略(Policy)的性能通常意味着投入巨额成本进行额外的数据采集和模型训练,这极大地限制了机器人能力的快速迭代与升级。面对模型性能的瓶颈,如何在不增加训练负担的情况下,进一步挖掘并增强现有策略的潜力?

来自主题: AI技术研报
7466 点击    2025-10-20 14:52
ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架

ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架

ACMMM 2025 | 北大团队提出 InteractMove:3D场景中人与可移动物体交互动作生成新框架

该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。

来自主题: AI技术研报
6955 点击    2025-10-20 14:40
1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人

1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人

1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人

1.58bit量化,内存仅需1/10,但表现不输FP16? 微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。

来自主题: AI技术研报
6130 点击    2025-10-20 14:35