AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

北大彭一杰教授课题组提出RiskPO,用风险度量优化重塑大模型后训练

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报
6038 点击    2025-10-15 14:19
Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。

来自主题: AI技术研报
6225 点击    2025-10-15 14:00
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的

来自主题: AI技术研报
8195 点击    2025-10-15 12:30
美图和奇点星宇,设计Agent产品都在疯狂生长

美图和奇点星宇,设计Agent产品都在疯狂生长

美图和奇点星宇,设计Agent产品都在疯狂生长

8 月榜单,最值得关注的变化是 Lovart 的访问量上升,8 月访问量上涨了 68.08% 至 323w,进入榜单。Lovart,读者想必已经熟悉,是奇点星宇的另一款 AI 视觉类产品,其产品核心设计为画布+对话框+编辑工具箱,也就是用户指导 AI 干活,

来自主题: AI技术研报
8792 点击    2025-10-15 12:19
ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式

2023年Meta推出SAM,随后SAM 2扩展到视频分割,性能再度突破。近日,SAM 3悄悄现身ICLR 2026盲审论文,带来全新范式——「基于概念的分割」(Segment Anything with Concepts),这预示着视觉AI正从「看见」迈向真正的「理解」。

来自主题: AI技术研报
7695 点击    2025-10-15 12:18
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习

这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!

来自主题: AI技术研报
7683 点击    2025-10-15 12:14
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报
8661 点击    2025-10-15 12:12
只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自主题: AI技术研报
7667 点击    2025-10-15 12:07
谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁新作:VAE退役,RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束,RAE将接力前行。其中表征自编码器RAE(Representation Autoencoders)是一种用于扩散Transformer(DiT)训练的新型自动编码器,其核心设计是用预训练的表征编码器(如DINO、SigLIP、MAE 等)与训练后的轻量级解码器配对,从而替代传统扩散模型中依赖的VAE(变分自动编码器)。

来自主题: AI技术研报
7267 点击    2025-10-14 16:34
AI产品在亚洲疯狂增长,开发者们如何抓住注意力涣散的年轻人

AI产品在亚洲疯狂增长,开发者们如何抓住注意力涣散的年轻人

AI产品在亚洲疯狂增长,开发者们如何抓住注意力涣散的年轻人

根据 Sensor Tower 数据显示,2025 H1 AI 应用的下载量达到 17 亿次,增长 67%,IAP 收入总计达到 19 亿美元,增幅达到 100.6%。在走过了概念验证阶段后,AI 应用正成为一股很强的增长动力,给已经相对平静的应用市场注入了活力。

来自主题: AI技术研报
7146 点击    2025-10-14 13:17
剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了

为什么大模型,在执行长时任务时容易翻车?这让一些专家,开始质疑大模型的推理能力,认为它们是否只是提供了「思考的幻觉」。近日,剑桥大学等机构的一项研究证明:问题不是出现在推理上,而是出在大模型的执行能力上。

来自主题: AI技术研报
7465 点击    2025-10-14 11:10
真正的AI竞争力,藏在大模型“后训练”这一步

真正的AI竞争力,藏在大模型“后训练”这一步

真正的AI竞争力,藏在大模型“后训练”这一步

当全球的目光还在聚焦基座模型的参数竞赛时,一场更为深刻的变革正在悄然发生——后训练(Post-Training)。

来自主题: AI技术研报
7656 点击    2025-10-14 10:16
产品经理必读:AI Agent 架构指南

产品经理必读:AI Agent 架构指南

产品经理必读:AI Agent 架构指南

这是一份为正在开发 AI Agent 的产品经理准备的完整指南,介绍了 Agent 架构、编排模式等话题。

来自主题: AI技术研报
6197 点击    2025-10-14 10:10
后果真实且残酷!哈佛研究揭示AI如何冲击就业市场

后果真实且残酷!哈佛研究揭示AI如何冲击就业市场

后果真实且残酷!哈佛研究揭示AI如何冲击就业市场

两位哈佛学者通过研究6200万份简历和近2亿条招聘职位数据,揭示了AI对就业带来的真实、残酷的冲击:它不是无差别地针对所有人,而是在大量“吞噬”初级岗位,让那些刚刚踏入社会的年轻人,面临着空前陡峭、狭窄的职业起跑线。与此同时,为数众多的普通院校毕业生群体受到的冲击更为显著。

来自主题: AI技术研报
8121 点击    2025-10-14 09:59
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

Being-VL的视觉BPE路线:把「看」和「说」真正统一起来

为此,北大、UC San Diego 和 BeingBeyond 联合提出一种新的方法——Being-VL 的视觉 BPE 路线。Being-VL 的出发点是把这一步后置:先在纯自监督、无 language condition 的设定下,把图像离散化并「分词」,再与文本在同一词表、同一序列中由同一 Transformer 统一建模,从源头缩短跨模态链路并保留视觉结构先验。

来自主题: AI技术研报
7223 点击    2025-10-14 09:58
腾讯开源世界第一生图模型,我总结了16个邪修玩法

腾讯开源世界第一生图模型,我总结了16个邪修玩法

腾讯开源世界第一生图模型,我总结了16个邪修玩法

讲真,AI生图圈的内卷速度简直离谱。8月底的Nano Banana、9月中的即梦4.0已经把画质和效果卷到了一个新高度,但我还在纠结到底该把谁设为主力工具,因为总觉得他们差点什么:不是出错就是不懂场景。

来自主题: AI技术研报
9909 点击    2025-10-14 09:57
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报
7746 点击    2025-10-13 16:08
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。 Meta 的「分割一切」再上新? 9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。

来自主题: AI技术研报
6220 点击    2025-10-13 16:03
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
6882 点击    2025-10-13 15:58
Bug变奖励:AI的小失误,揭开创造力真相!

Bug变奖励:AI的小失误,揭开创造力真相!

Bug变奖励:AI的小失误,揭开创造力真相!

扩散模型本该只是复制机器,却一次次画出「六指人像」甚至是陌生场景。最新研究发现,AI的「创造力」其实是架构里的副作用。有学者大胆推测人类的灵感或许也是如此。当灵感成了固定公式,人类和AI的差别还有多少?

来自主题: AI技术研报
6224 点击    2025-10-13 15:53
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

近年来,大型语言模型的参数规模屡创新高,随之而来的推理开销也呈指数级增长。如何降低超大模型的推理成本,成为业界关注的焦点之一。Mixture-of-Experts (MoE,混合专家) 架构通过引入大量 “专家” 子模型,让每个输入仅激活少数专家,从而在参数规模激增的同时避免推理计算量同比增长。

来自主题: AI技术研报
7926 点击    2025-10-13 15:49
腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

腾讯开源强化学习新算法!让智能体无需专家示范就“自学成才”,还即插即用零成本接入

让智能体自己摸索新方法,还模仿自己的成功经验。腾讯优图实验室开源强化学习算法——SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。

来自主题: AI技术研报
7070 点击    2025-10-13 15:45
NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建

NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建

NeurIPS 2025 Spotlight | GeoSVR:稀疏体素的新潜力——超越3DGS系列的高精度三维表面重建

近年来,NeRF、SDF 与 3D Gaussian Splatting 等方法大放异彩,让 AI 能从图像中恢复出三维世界。但随着相关技术路线的发展与完善,瓶颈问题也随之浮现:

来自主题: AI技术研报
6688 点击    2025-10-13 15:38
OpenAI 的颠覆革命|狂热的2024·沸腾的2025丨Xsignal

OpenAI 的颠覆革命|狂热的2024·沸腾的2025丨Xsignal

OpenAI 的颠覆革命|狂热的2024·沸腾的2025丨Xsignal

2022年11月,OpenAI的ChatGPT问世,这一事件不仅是技术创新的里程碑,更被视为重塑全球AI战略版图的关键转折点,它标志着新一轮大国AI竞赛的序幕被正式拉开。在此背景下,其增长的规模与速度本身,就是一种颠覆性的战略壁垒。

来自主题: AI技术研报
11077 点击    2025-10-13 14:13
“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频

“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频

“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频

AI自己讲明白论文,还能生成更美观的幻灯片。加州大学圣塔芭芭拉(UCSB)与圣克鲁兹(UCSC)的研究者提出EvoPresent,一个能够自我进化的学术演讲智能体框架,让AI不仅能“讲清楚论文”,还能“讲得好看”。

来自主题: AI技术研报
8085 点击    2025-10-13 12:24
第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力

第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力

第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力

InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,仅需少量长文本数据即可训练,且性能接近传统稠密模型。通过动态切换短长文本处理模式,显著提升长上下文任务的效率与质量。从短到长低成本「无缝切换」,预填充与解码双阶段加速,释放长上下文的真正生产力。

来自主题: AI技术研报
8154 点击    2025-10-13 11:55