AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

对抗协作+原型学习!深北莫FedPall开源,联邦学习破局特征漂移,准确率登顶SOTA

本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生,主要研究方向为联邦学习,多专家大模型,多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕

来自主题: AI技术研报
5978 点击    2025-09-25 10:44
“AI味”到底是什么味儿?

“AI味”到底是什么味儿?

“AI味”到底是什么味儿?

文章探讨了人们识别和反感的文本“AI味”,分析其特征(如三段式结构、晦涩用词、密集修辞),并通过与人类文本对比实验(高考作文)发现实际差异主要在修辞偏好(高频对偶、排比、比喻)和套路化表达,但刻板印象不完全准确。研究同时指出人类通过反复修改与AI协作,在应用中去除“AI味”并保留“人味”。

来自主题: AI技术研报
7172 点击    2025-09-25 10:32
a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

a16z:AI 产品初期用户流失高很正常,M3 留存才是评估 PMF 的关键

近期,a16z 的研究团队发布了一篇博客文章《Retention Is All You Need》,在分析了数百家 AI 企业的情况后发现:将衡量用户留存率的基准点从第 0 个月(M0)后移至第 3 个月(M3),反而能更清晰地评估 PMF 和 GTM 策略。

来自主题: AI技术研报
7233 点击    2025-09-24 15:45
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布!报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。

来自主题: AI技术研报
7169 点击    2025-09-24 10:52
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到: 仅凭一张静态照片,就能 “脑补” 出整个 3D

来自主题: AI技术研报
5988 点击    2025-09-24 09:56
一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相

AGI时代或将带来前所未有的繁荣:算力推动经济狂飙,但人类工资却被钉死在「算力成本」上,与增长彻底脱钩。耶鲁学者Restrepo的研究指出,劳动份额将归零,财富全面流向算力资本。人类或许仍被需要,却只停留在护理、陪伴等附属岗位。在这样的未来,工作还有意义吗?

来自主题: AI技术研报
6099 点击    2025-09-24 09:55
庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境

数月前,苹果基础模型团队负责人、杰出工程师庞若鸣(Ruoming Pang)离职加入 Meta。扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队。根据庞若鸣的领英信息,他已在 Meta 工作了大约三个月的时间。

来自主题: AI技术研报
7672 点击    2025-09-24 09:54
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。

来自主题: AI技术研报
6144 点击    2025-09-24 09:53
Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

Depth Anything再出新作!浙大&港大出品:零样本,优化任意深度图

浙江大学与港大团队推出「Prior Depth Anything」,把稀疏的深度传感器数据与AI完整深度图融合,一键补洞、降噪、提分辨率,让手机、车载、AR眼镜都能实时获得精确三维视觉。无需额外训练,就能直接提升VGGT等3D模型的深度质量,零样本刷新多项深度补全、超分、修复纪录。

来自主题: AI技术研报
6837 点击    2025-09-24 09:52
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上,推出全新研究成果——UI-S1,提出了一种名为半在线强化学习(Semi-online Reinforcement Learning)的创新训练范式。

来自主题: AI技术研报
6492 点击    2025-09-24 09:49
帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

帮你把Agent从玩具变成产品,Google发布重磅指南,3章内容填平生产化鸿沟

谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手册,这篇文档要解决的问题:原型到生产之间最大鸿沟,Agent的非确定性、复杂推理轨迹如何验证、如何部署与运维等。初创公司业务负责人或开发者看完后能获得一个系统性的、

来自主题: AI技术研报
8163 点击    2025-09-23 16:35
故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,

来自主题: AI技术研报
8551 点击    2025-09-23 16:34
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
6653 点击    2025-09-23 14:59
快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

快手解密「AI印钞机」,首提生成式强化学习出价技术,为平台实现超过3%的广告收入提升

CBD 算法则是快手商业化算法团队在本月初公布的新方法,全名 Causal auto-Bidding method based on Diffusion completer-aligner,即基于扩散式补全器-对齐器的因果自动出价方法。

来自主题: AI技术研报
5622 点击    2025-09-23 13:29
月流水上涨数倍、多品类爆发,AI产品在移动端越来越赚钱?

月流水上涨数倍、多品类爆发,AI产品在移动端越来越赚钱?

月流水上涨数倍、多品类爆发,AI产品在移动端越来越赚钱?

近日,Sensor Tower 发布《2025 年 AI 应用市场调查报告》,报告中提到,移动端 AI 产品 IAP 收入在 2025 年上半年半年度环比增长率为 100%,但具体到产品上,全球 IAP 收入 Top10 全部都是 ChatBot,相比于 Web 端的百花齐放,App 端能赚到钱的 AI 原生产品依旧单一。

来自主题: AI技术研报
7624 点击    2025-09-23 10:54
LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun力荐的JEPA杀入LLM,用CV的思路训练LLM,性能鲁棒性双丰收

LeCun 这次不是批评 LLM,而是亲自改造。当前 LLM 的训练(包括预训练、微调和评估)主要依赖于在「输入空间」进行重构与生成,例如预测下一个词。 而在 CV 领域,基于「嵌入空间」的训练目标,如联合嵌入预测架构(JEPA),已被证明远优于在输入空间操作的同类方法。

来自主题: AI技术研报
6625 点击    2025-09-23 10:12
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光

不用在建模、UV、贴图软件之间反复横跳,一个工作台就能得到:这是腾讯专为3D设计师、游戏开发者、建模师等打造的专业级AI工作台混元3D Studio。

来自主题: AI技术研报
9436 点击    2025-09-23 10:11
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:推理计算是否可以替代缺失的监督?本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。

来自主题: AI技术研报
4798 点击    2025-09-23 10:09
Prompt的尽头,居然是MBTI。

Prompt的尽头,居然是MBTI。

Prompt的尽头,居然是MBTI。

论文的标题很学术,叫《心理学增强AI智能体》但是大白话翻译一下就是,想要让大模型更好地完成任务,你们可能不需要那些动辄几百上千字的复杂Prompt,不需要什么思维链、思维图谱,甚至不需要那些精巧的指令。

来自主题: AI技术研报
6559 点击    2025-09-23 10:08
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐

近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过逐层奖励融合实现稠密反馈。

来自主题: AI技术研报
5488 点击    2025-09-23 10:07
美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

美团王兴,又开源一款大模型!

最近,美团在AI开源赛道上在猛踩加速。今天,在开源其首款大语言模型仅仅24天后,美团又开源了其首款自研推理模型LongCat-Flash-Thinking。与其基础模型LongCat-Flash类似,效率也是LongCat-Flash-Thinking的最大特点。美团在技术报告中透露,LongCat-Flash-Thinking在自研的DORA强化学习基础设施完成训练

来自主题: AI技术研报
7169 点击    2025-09-22 23:05
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报
9405 点击    2025-09-22 16:11
IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

IBM发布LLM工具调用判断器ToolRM,工具调用准确率提高25%

Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。

来自主题: AI技术研报
7338 点击    2025-09-22 10:34
工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?

来自主题: AI技术研报
6859 点击    2025-09-22 10:06
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报
5891 点击    2025-09-22 09:21
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代

近日,明略科技推出的基于多模态基础模型的网页 GUI 智能体 Mano,凭借其强大的性能,在行业内公认的两大挑战基准 ——Mind2Web 和 OSWorld 上同时刷新纪录,取得当前最佳成绩(SOTA)。

来自主题: AI技术研报
8323 点击    2025-09-21 19:20
Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型

基于这一挑战,我们提出了 Mini-Omni-Reasoner——一种专为对话场景打造的实时推理新范式。它通过「Thinking-in-Speaking」实现边思考边表达,既能实时反馈、输出自然流畅的语音内容,又能保持高质量且可解释的推理过程。

来自主题: AI技术研报
6562 点击    2025-09-21 11:10
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁

阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。

来自主题: AI技术研报
6383 点击    2025-09-21 11:09
集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源

创智、基流、智谱、联通、北航、清华、东南联合打造了高效率、高可靠、高可视的 GPU 集合通信库 VCCL(Venus Collective Communication Library),VCCL 已部署于多个生产环境集群中。

来自主题: AI技术研报
6659 点击    2025-09-21 11:08
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。该基准包含635个金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测。

来自主题: AI技术研报
6924 点击    2025-09-21 11:07