AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。 共一作者 Yanzhe Chen 陈彦哲(博士生)与 Kevin Qinghong Lin 林庆泓(博士生)均来自 ShowLab@NUS,分别聚焦于多模态理解以及智能体(Agent)研究。 项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

来自主题: AI技术研报
8558 点击    2025-10-11 11:30
Jina Reranker v3: 全新“列式”重排器,0.6B参数刷新文档检索SOTA

Jina Reranker v3: 全新“列式”重排器,0.6B参数刷新文档检索SOTA

Jina Reranker v3: 全新“列式”重排器,0.6B参数刷新文档检索SOTA

我们正式推出第三代重排器 Jina Reranker v3。它在多项多语言检索基准上刷新了当前最佳表现(SOTA)。这是一款仅有 6 亿参数的多语言重排模型。我们为其设计了名为 “last but not late” (中文我们译作后发先至)的全新交互机制,使其能接受 Listwise 即列式输入,在一个上下文窗口内一次性完成对查询和所有文档的深度交互。

来自主题: AI技术研报
9810 点击    2025-10-10 13:11
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理

700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理

700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理

来自加拿大蒙特利尔三星先进技术研究所(SAIT)的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型(TRM)。这个 TRM 有多离谱呢?一个仅包含 700 万个参数(比 HRM 还要小 4 倍)的网络,在某些最困难的推理基准测试中,

来自主题: AI技术研报
8298 点击    2025-10-10 13:08
管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

管你模型多大,250份有毒文档统统放倒,Anthropic:迄今为止规模最大的大模型数据投毒调查

本次新研究是迄今为止规模最大的大模型数据投毒调查。Anthropic 与英国人工智能安全研究所(UK AI Security Institute)和艾伦・图灵研究所(Alan Turing Institute)联合进行的一项研究彻底打破了这一传统观念:只需 250 份恶意文档就可能在大型语言模型中制造出「后门」漏洞,且这一结论与模型规模或训练数据量无关。

来自主题: AI技术研报
8640 点击    2025-10-10 12:14
又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限

又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限

又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限

Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看,他们将 LLM 视为其「思维」的改进操作符,实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼(Parallel-Distill-Refine, PDR),

来自主题: AI技术研报
8732 点击    2025-10-10 10:33
AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密

AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密

AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密

来自加州大学圣地亚哥分校(UCSD)的华人学者Wanda Hou,与加州大学伯克利分校以及Google Quantum AI合作,在谷歌的Sycamore与Willow超导量子处理器上完成了一次别开生面的实验。

来自主题: AI技术研报
8049 点击    2025-10-10 10:28
NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」

NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」

NeurIPS 2025 Spotlight | 只需一条演示,DexFlyWheel框架让机器人学会「自我造数据」

近期,北京大学、哈尔滨工业大学联合 PsiBot 灵初智能提出首个自我增强的灵巧操作数据生成框架 ——DexFlyWheel。该框架仅需单条演示即可启动任务,自动生成多样化的灵巧操作数据,旨在缓解灵巧手领域长期存在的数据稀缺问题。目前已被 NeurIPS 2025 接受为 Spotlight(入选率约 3.2%)

来自主题: AI技术研报
9362 点击    2025-10-10 10:26
软件行业的范式转变:AI 如何彻底改写游戏规则

软件行业的范式转变:AI 如何彻底改写游戏规则

软件行业的范式转变:AI 如何彻底改写游戏规则

你有没有想过,我们对软件公司的所有认知可能都要被推翻重建?当一家公司用 19 个人就能在一年内做到 1 亿美元 ARR(年度经常性收入)时,当传统需要 500 人团队才能达成的里程碑现在只需要几十人就

来自主题: AI技术研报
9459 点击    2025-10-09 16:26
69 页最新报告丨AI Agent 圣经:智能体的终极指南

69 页最新报告丨AI Agent 圣经:智能体的终极指南

69 页最新报告丨AI Agent 圣经:智能体的终极指南

CBINSIGHTS 最近做了一份《AI Agent Bible》的报告,系统梳理了 AI Agent 的发展前景与未来趋势,提出了面向 2026 年的六大关键预测,并绘制出完整的生态版图,涵盖最值得关注的创业公司、基础设施提供商及快速崛起的营收增长型企业。同时,报告深入解析了市场格局与技术栈的演进,包括 AI Agent 的市场图谱、技术堆栈与收入竞争态势,并通过企业级应用的视角,

来自主题: AI技术研报
10667 点击    2025-10-09 14:02
别卷 Prompt 了,上下文工程正在淘汰你

别卷 Prompt 了,上下文工程正在淘汰你

别卷 Prompt 了,上下文工程正在淘汰你

Hi,返工早上好。 我是洛小山,和你聊聊 AI 行业思考。 AI Agent 应用的竞争逻辑,正在发生根本性变化。 当许多团队还在死磕提示词优化(PE 工程)时,一些优秀团队开始重心转向了上下文工程

来自主题: AI技术研报
6879 点击    2025-10-09 11:59
开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

开源RL框架Verlog来了,专为LLM智能体打造,400回合不成问题

具体而言,Verlog 是一个多轮强化学习框架,专为具有高度可变回合(episode)长度的长时程(long-horizon) LLM-Agent 任务而设计。它在继承 VeRL 和 BALROG 的基础上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟设计原则,引入了一系列专门优化手段,从而在任务跨度从短暂交互到数百回合时,依然能够实现稳定而高效的训练。

来自主题: AI技术研报
6361 点击    2025-10-09 11:16
Meta的代码生成世界模型CWM,先预测结果再写代码,IDE很快会多一个“预言”按钮

Meta的代码生成世界模型CWM,先预测结果再写代码,IDE很快会多一个“预言”按钮

Meta的代码生成世界模型CWM,先预测结果再写代码,IDE很快会多一个“预言”按钮

您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考

来自主题: AI技术研报
7914 点击    2025-10-09 11:06
10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!

10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!

10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!

写代码的规则,正在被悄悄改写!不再是「人+AI一起盯屏幕」,而是一次性放出十几个任务,让代理们各自跑。真正的门槛,也不再是你能写多少行代码,而是你能不能写清楚需求、明确地拆分任务、快速浏览结果。

来自主题: AI技术研报
9693 点击    2025-10-08 22:46
从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

从「知题」到「知人」:UserRL让智能体学会「以人为本」

来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案:UserBench —— 首次将 “用户特性” 制度化,构建交互评测环境,用于专门检验大模型是否真正 “懂人”;UserRL —— 在 UserBench 及其他标准化 Gym 环境之上,搭建统一的用户交互强化学习框架,并系统探索以用户为驱动的奖励建模。

来自主题: AI技术研报
8646 点击    2025-10-08 11:45
斯坦福华人研究火了:45分钟让你的论文变身AI智能体!

斯坦福华人研究火了:45分钟让你的论文变身AI智能体!

斯坦福华人研究火了:45分钟让你的论文变身AI智能体!

斯坦福大学研究人员提出了Paper2Agent,将静态论文转化为可交互的AI智能体,让学术成果可以直接被「调用」,为科研知识传播开辟了新模式,并为构建AI共研生态奠定基础。

来自主题: AI技术研报
8812 点击    2025-10-08 11:44
清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队,NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化

来自主题: AI技术研报
9782 点击    2025-10-08 11:43
田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理

田渊栋与Russell团队联手,证明Transformer能在训练中自然学会叠加推理

该团队 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已从理论上指出,连续思维链的一个关键优势在于它能使模型在叠加(superposition)状态下进行推理:当模型面对多个可能的推理路径而无法确定哪一个是正确时,它可以在连续空间中并行地保留所有可能的路

来自主题: AI技术研报
8848 点击    2025-10-08 11:41
EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真

EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真

EMNLP 2025 | CARE:无需外部工具,让大模型原生检索增强推理实现上下文高保真

近日,来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架,一个新颖的原生检索增强推理框架,教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。该框架现已全面开源,包括训练数据集、训练代码、模型 checkpoints 和评估代码,为社区提供一套完整的、可复现工作。

来自主题: AI技术研报
7338 点击    2025-10-07 22:10
Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

Meta FAIR田渊栋唯一作者发文:拆解模型「顿悟时刻」

早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛化。

来自主题: AI技术研报
8505 点击    2025-10-07 22:06
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

来自主题: AI技术研报
5311 点击    2025-10-06 21:53
AI基建的高潮,2025年才真正开始 | 笔记

AI基建的高潮,2025年才真正开始 | 笔记

AI基建的高潮,2025年才真正开始 | 笔记

AI正在把科技与资本结合的力量,推向一个新的市场高度。先看这张图,基本上能说明过去40年美国经济与产业的演变。 1985年初的美国十大公司,到2015年仅剩下两家,到2025年全部消失。1985年,主

来自主题: AI技术研报
8603 点击    2025-10-06 19:58
AI花17小时写了篇30页学术论文!自主选题,包含实验,还符合APA格式规范

AI花17小时写了篇30页学术论文!自主选题,包含实验,还符合APA格式规范

AI花17小时写了篇30页学术论文!自主选题,包含实验,还符合APA格式规范

不是拼凑知识点,AI这次是真搞研究。一个叫Virtuous Machines的AI系统,花了17小时、114美元,找了288个真人做实验,写了一篇30页的学术论文。而且还是从选题到成稿全自动化速通!?

来自主题: AI技术研报
9402 点击    2025-10-06 19:53
CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶

2025年9月17日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型(简称“聆音”)。该模型基于超过450万张、涵盖50多个人体器官的大规模超声影像数据集训练而成,在器官识别、器官分割、病灶分类等10余项典型超声医学任务测试中表现卓越,性能全面登顶。

来自主题: AI技术研报
8101 点击    2025-10-06 15:53
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
6854 点击    2025-10-06 14:46
机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

机器人“狂踹不倒”视频刷屏!太空舱遍布城市街巷,银河通用这几手秀麻了

连续飞踢一台机器人30秒会发生什么?那么,是什么让这台机器人怎么踹都踹不倒呢? 答案就出自银河通用的全新通用动作追踪框架——Any2Track。

来自主题: AI技术研报
7648 点击    2025-10-06 14:02
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报
7459 点击    2025-10-06 13:42
Jina官方MCP三板斧:搜、读、筛

Jina官方MCP三板斧:搜、读、筛

Jina官方MCP三板斧:搜、读、筛

模型上下文协议 (MCP) 是连接 LLM/Agent 与外部工具的通信标准。它允许 LLM 动态发现并调用 API工具,将他们串成一个完整的工作流,从而实现自主规划、推理与执行。 上个月我们悄悄发布

来自主题: AI技术研报
8949 点击    2025-10-06 13:23
复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

复旦、同济和港中文等重磅发布:强化学习在大语言模型全周期的全面综述

近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。

来自主题: AI技术研报
7075 点击    2025-10-06 13:22
你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

你敢信?GPT-5的电脑操作水平只比人类低2%了

Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。 其中「计算机使用智能

来自主题: AI技术研报
8956 点击    2025-10-05 21:34