AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。

来自主题: AI技术研报
6262 点击    2025-07-14 11:12
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

近年来,随着扩散模型(Diffusion Models)和扩散 Transformer(DiT)在视频生成领域的广泛应用,AI 合成视频的质量和连贯性有了飞跃式提升。像 OpenAI Sora、HunyuanVideo、Wan2.1 等大模型,已经能够生成结构清晰、细节丰富且高度连贯的长视频内容,为数字内容创作、虚拟世界和多媒体娱乐带来了巨大变革。

来自主题: AI技术研报
6511 点击    2025-07-14 10:42
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!

告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!

告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!

当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时,一项来自北大、北邮和华为的最新研究却反其道而行之,重新审视了深度学习中最基础、最经典的模块——3x3 卷积。

来自主题: AI技术研报
6820 点击    2025-07-14 10:25
AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%

AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%

AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%

随着大模型的崛起,AI编程领域正在发生翻天覆地的变化。各种编程大模型、编程工具涌现,通过自动补全代码、自动 debug 等实用的功能为开发者的日常工作提供极大便利,并在一定程度上提升了开发效率。

来自主题: AI技术研报
6419 点击    2025-07-13 13:24
攻克「恶意投毒」攻击!华南理工联合霍普金斯和UCSD,连登TPAMI、TIFS顶刊

攻克「恶意投毒」攻击!华南理工联合霍普金斯和UCSD,连登TPAMI、TIFS顶刊

攻克「恶意投毒」攻击!华南理工联合霍普金斯和UCSD,连登TPAMI、TIFS顶刊

华南理工大学计算机学院AI安全团队长期深耕于人工智能安全,近期联合约翰霍普金斯大学和加州大学圣地亚戈分校聚焦于联邦学习中防范恶意投毒攻击,产出工作连续发表于AI顶刊TPAMI 2025和网络安全顶刊TIFS 2025。

来自主题: AI技术研报
6392 点击    2025-07-13 11:45
无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。

来自主题: AI技术研报
6598 点击    2025-07-13 11:37
ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解

ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解

ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解

随着 OpenAI 推出 GPT-4o 的图像生成功能,AI 生图能力被拉上了一个新的高度,但你有没有想过,这光鲜亮丽的背后也隐藏着严峻的安全挑战:如何区分生成图像和真实图像?

来自主题: AI技术研报
5658 点击    2025-07-13 11:30
ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而增强多视图的一致性。

来自主题: AI技术研报
6436 点击    2025-07-13 11:07
微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究

微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究

微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究

7 月 10 日,微软研究院 AI for Science 团队在《Science》杂志发表了题为「Scalable emulation of protein equilibrium ensembles with generative deep learning」的研究成果。

来自主题: AI技术研报
6438 点击    2025-07-12 12:32
模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作

在机器人操控领域,实现高频响应与复杂推理的统一,一直是一个重大技术挑战。近期,北京大学与香港中文大学的研究团队联合发布了名为 Fast-in-Slow(FiS-VLA) 的全新双系统视觉 - 语言 - 动作模型。

来自主题: AI技术研报
6356 点击    2025-07-12 12:08
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:

来自主题: AI技术研报
7043 点击    2025-07-12 11:58
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

来自主题: AI技术研报
6398 点击    2025-07-12 11:51
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型

编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型

编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型

今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。

来自主题: AI技术研报
6560 点击    2025-07-11 17:19
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

来自主题: AI技术研报
7102 点击    2025-07-11 17:12
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报
8657 点击    2025-07-11 17:05
从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。

来自主题: AI技术研报
8735 点击    2025-07-11 16:54
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平

现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。

来自主题: AI技术研报
6383 点击    2025-07-11 16:41
OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报
6147 点击    2025-07-11 16:30
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义

让大模型在学习推理的同时学会感知。伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。

来自主题: AI技术研报
6621 点击    2025-07-11 16:23
Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

庞若鸣,苹果基础模型团队负责人、杰出工程师,即将成为 Meta 新成立的超级智能团队的最新成员。他本科毕业于上海交通大学,在谷歌工作了 15 年,此后加入苹果。另据彭博社最新消息,Meta 更是开出了 2 亿美金的天价来邀请庞若鸣加入。

来自主题: AI技术研报
6705 点击    2025-07-11 16:15
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。

来自主题: AI技术研报
8457 点击    2025-07-11 16:10
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了

无需CUDA代码,给H100加速33%-50%! Flash Attention、Mamba作者之一Tri Dao的新作火了。

来自主题: AI技术研报
8697 点击    2025-07-11 16:06
扩散语言模型写代码!速度比自回归快10倍

扩散语言模型写代码!速度比自回归快10倍

扩散语言模型写代码!速度比自回归快10倍

谁说扩散模型只能生成图像和视频?现在它们能高质量地写代码了,速度还比传统大模型更快!Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。

来自主题: AI技术研报
6980 点击    2025-07-11 12:02
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。

来自主题: AI技术研报
8748 点击    2025-07-11 10:51
推理与操控能力双提升!具身机器人双系统VLA模型新突破

推理与操控能力双提升!具身机器人双系统VLA模型新突破

推理与操控能力双提升!具身机器人双系统VLA模型新突破

让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。

来自主题: AI技术研报
7013 点击    2025-07-11 10:46
复杂Agent怎么设计?IBM用一个YAML,性能提升4倍| ICML 2025

复杂Agent怎么设计?IBM用一个YAML,性能提升4倍| ICML 2025

复杂Agent怎么设计?IBM用一个YAML,性能提升4倍| ICML 2025

您有没有遇到过这样的场景:为了调试一个LLM应用的效果,您需要在一大堆Python代码中翻找那些零散的提示词字符串?每次想要A/B测试不同的提示时,就像在做开颅手术一样小心翼翼。

来自主题: AI技术研报
8142 点击    2025-07-11 10:31
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型,通过持续预训练和异构对比微调,提升模型性能和泛化能力,在多模态基准测试中表现优异,尤其小规模模型性能突出。

来自主题: AI技术研报
8616 点击    2025-07-11 10:09
大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

LLM用得越久,速度越快!Emory大学提出SpeedupLLM框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时推理成本降低56%,准确率提升,为AI模型发展提供新思路。

来自主题: AI技术研报
5054 点击    2025-07-10 12:30