AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

当前先进制造领域的产线良率往往超过 98%,因此异常样本(也称为缺陷样本)的搜集和标注已成为⼯业质检的核⼼瓶颈,过少的异常样本显著限制了模型的检测能⼒,利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择,但现有⽅法存在明显局限

来自主题: AI技术研报
5304 点击    2025-08-06 15:46
黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年

黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年

黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年

「软件正在吞噬世界,但AI将吞噬软件。」—英伟达CEO黄仁勋的预言正加速照进现实。

来自主题: AI技术研报
5984 点击    2025-08-06 13:21
科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

科研写作神器,超越Mathpix的科学公式提取工具已开源

LaTeX 公式的光学字符识别(OCR)是科学文献数字化与智能处理的基础环节,尽管该领域取得了一定进展,现有方法在真实科学文献处理时仍面临诸多挑战:

来自主题: AI技术研报
5299 点击    2025-08-06 12:56
Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布

Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布

Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布

近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统等。

来自主题: AI技术研报
5815 点击    2025-08-06 12:18
小米模型实现声音理解新SOTA!数据吞吐效率暴增20倍,推理速度快4倍 | 全量开源

小米模型实现声音理解新SOTA!数据吞吐效率暴增20倍,推理速度快4倍 | 全量开源

小米模型实现声音理解新SOTA!数据吞吐效率暴增20倍,推理速度快4倍 | 全量开源

声音理解能力新SOTA,小米全量开源了模型。 MiDashengLM-7B,基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。

来自主题: AI技术研报
5248 点击    2025-08-06 12:11
北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向

北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向

北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向

在数据隐私日益重要的 AI 时代,如何在保护用户数据的同时高效运行机器学习模型,成为了学术界和工业界共同关注的难题。

来自主题: AI技术研报
5345 点击    2025-08-06 11:53
Qwen新开源,把AI生图里的文字SOTA拉爆了

Qwen新开源,把AI生图里的文字SOTA拉爆了

Qwen新开源,把AI生图里的文字SOTA拉爆了

通义模型家族,刚刚又双叒开源了,这次是Qwen-Image——一个200亿参数、采用MMDiT架构的图像生成模型。 这也是通义千问系列中首个图像生成基础模型。

来自主题: AI技术研报
5565 点击    2025-08-05 17:10
南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?

南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?

南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?

世界是动态变化的。为了理解这个动态变化的世界并在其中运行,AI 模型必须具备在线学习能力。为此,该领域提出了一种新的性能指标 —— 适应性遗憾值(adaptive regret),其定义为任意区间内的最大静态遗憾值。

来自主题: AI技术研报
5681 点击    2025-08-05 16:29
全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式

全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式

全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式

凭借类人化的结构设计与运动模式,人形机器人被公认为最具潜力融入人类环境的通用型机器人。其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域,而这些任务的高效完成,均以机器人对自身所处环境的全面精准理解为前提。

来自主题: AI技术研报
5607 点击    2025-08-05 16:14
面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架

面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架

面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架

当前环境感知通信正逐步成为第六代移动通信系统(6G)的核心使能技术之一。为支撑其在复杂三维环境下的部署需求,西安电子科技大学、香港中文大学(深圳)和加拿大滑铁卢大学的研究团队联合提出了一个面向6G的高分辨率多模态三维无线电图谱数据集UrbanRadio3D,并构建了基于扩散模型的三维无线电图生成框架RadioDiff-3D。

来自主题: AI技术研报
6091 点击    2025-08-05 16:07
RAG也能推理思考!彻底解决多源异构知识难题

RAG也能推理思考!彻底解决多源异构知识难题

RAG也能推理思考!彻底解决多源异构知识难题

现在的RAG(检索增强生成)系统。您给它一个简单直接的问题,它能答得头头是道

来自主题: AI技术研报
7578 点击    2025-08-05 15:21
LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!

AlphaStar等证明强化学习在游戏等复杂任务上,表现出色,远超职业选手!那强化学习怎么突然就不行了呢?强化学习到底是怎么走上歧路的?

来自主题: AI技术研报
5918 点击    2025-08-05 13:46
字节Seed数学新模型,SOTA了

字节Seed数学新模型,SOTA了

字节Seed数学新模型,SOTA了

不仅能达IMO银牌水准,更能解决普特南数学竞赛难题,甚至超越顶尖模型o4-mini! 字节发布全新复杂数学解决模型——Seed-Prover。

来自主题: AI技术研报
6849 点击    2025-08-04 20:45
3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

3D-R1:让AI理解3D世界的下一步

在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力?这正是 3D 视觉语言模型(3D VLM)所要解决的问题。

来自主题: AI技术研报
5581 点击    2025-08-04 20:04
藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路

藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路

藏师傅教你做即将爆火的AI玄学祈福壁纸,不止提示词还有创作思路

大家好,我是歸藏(guizang),今天给大家带来昨天探索的 AI 许愿祈福壁纸教程。昨天做了几张 AI 玄学的那种祈福壁纸,除了常见的文字花纹还加上了对应的神仙和一些现代化的处理。

来自主题: AI技术研报
7777 点击    2025-08-04 15:09
图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?

不知道大家是否还记得,人工智能先驱、强化学习之父、图灵奖获得者 Richard S. Sutton,在一个多月前的演讲。 Sutton 认为,LLM 现在学习人类数据的知识已经接近极限,依靠「模仿人类」很难再有创新。

来自主题: AI技术研报
6946 点击    2025-08-04 12:25
万亿参数狂欢!一文刷爆2025年七大顶流大模型架构

万亿参数狂欢!一文刷爆2025年七大顶流大模型架构

万亿参数狂欢!一文刷爆2025年七大顶流大模型架构

从GPT-2到DeepSeek-V3和Kimi K2,架构看似未变,却藏着哪些微妙升级?本文深入剖析2025年顶级开源模型的创新技术,揭示滑动窗口注意力、MoE和NoPE如何重塑效率与性能。

来自主题: AI技术研报
6328 点击    2025-08-04 12:05
高质量「上下文工程」资源整理(含速览和精读)

高质量「上下文工程」资源整理(含速览和精读)

高质量「上下文工程」资源整理(含速览和精读)

上下文工程(Context Engineering)现在有多火,就不用多说了吧。

来自主题: AI技术研报
7686 点击    2025-08-04 11:38
全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」

最近整个 AI 圈的目光似乎都集中在 GPT-5 上,相关爆料满天飞,但模型迟迟不见踪影。昨天我们报道了 The Information 扒出的 GPT-5 长文内幕,今天奥特曼似乎也坐不住,发了推文表示「惊喜很多,值得等待」。

来自主题: AI技术研报
5993 点击    2025-08-03 14:37
微软新研究:这40种工作最可能被AI取代

微软新研究:这40种工作最可能被AI取代

微软新研究:这40种工作最可能被AI取代

研究人员分析了20万条AI对话、整合了近3万项职业任务数据,通过计算覆盖率、成功率和影响范围三个维度,为每个职业算出了AI适用性分数。

来自主题: AI技术研报
7239 点击    2025-08-03 14:19
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO

图像生成不光要好看,更要高效。 混元基础模型团队提出全新框架MixGRPO,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP中的优化流程,从而提升了效率的同时还增强了性能。

来自主题: AI技术研报
6104 点击    2025-08-03 13:37
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

来自主题: AI技术研报
5948 点击    2025-08-03 13:04
刷新3D生成上限!一键生成精细到毛发的3D资产

刷新3D生成上限!一键生成精细到毛发的3D资产

刷新3D生成上限!一键生成精细到毛发的3D资产

在高质量3D生成需求日益增长的背景下,如何高效生成结构精良、几何精细的三维资产,已成为AIGC和数字内容创作领域的关键挑战。

来自主题: AI技术研报
6336 点击    2025-08-02 15:59
机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

尽管当前的机器人视觉语言操作模型(VLA)展现出一定的泛化能力,但其操作模式仍以准静态的抓取与放置(pick-and-place)为主。相比之下,人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取,将难以应对现实环境中的复杂任务。

来自主题: AI技术研报
5811 点击    2025-08-02 13:19
港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法

现有的方法对大语言模型(LLM)「越狱」攻击评估存在误判和不一致问题。港科大团队提出了GuidedBench评估框架,通过为每个有害问题制定详细评分指南,显著降低了误判率,揭示了越狱攻击的真实成功率远低于此前估计,并为未来研究提供了更可靠的评估标准。

来自主题: AI技术研报
5871 点击    2025-08-02 13:15
多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

多模态后训练反常识:长思维链SFT和RL的协同困境

在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常能实现叠加提升。

来自主题: AI技术研报
6190 点击    2025-08-02 12:49
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准

视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。

来自主题: AI技术研报
5996 点击    2025-08-02 12:43
全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告

全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告

全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告

就在一夜之间,用 AI 帮忙搞科研,不是再只是想想了。 最近,科研圈里越来越多的人在讨论一种叫 SciMaster 的「AI 科学助手」,有让它做实验的,有让他帮忙开题的,还有跟他聊科幻的。

来自主题: AI技术研报
6245 点击    2025-08-01 16:33