AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报
7589 点击    2025-06-09 11:02
扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

扩展强化学习:环境、奖励黑客、智能体、数据扩展

Test time scaling范式蓬勃发展。推理模型持续快速改进,变得更为高效且价格更为亲民。在评估现实世界软件工程任务(如 SWE-Bench)时,模型以更低的成本取得了更高的分数。以下是显示模型变得更便宜且更优秀的图表。

来自主题: AI技术研报
6547 点击    2025-06-09 10:25
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代

注意力机制的「平方枷锁」,再次被撬开!一招Fenwick树分段,用掩码矩阵,让注意力焕发对数级效率。更厉害的是,它无缝对接线性注意力家族,Mamba-2、DeltaNet 全员提速,跑分全面开花。长序列处理迈入log时代!

来自主题: AI技术研报
8790 点击    2025-06-08 15:27
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

告别「失忆」AI!首个大模型记忆操作系统开源框架来了!

该项目来自百家 AI,是北京邮电大学白婷副教授所指导的研究小组, 团队致力于为硅基人类倾力打造情感饱满、记忆超凡的智慧大脑。

来自主题: AI技术研报
8769 点击    2025-06-08 15:07
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。

来自主题: AI技术研报
7563 点击    2025-06-08 14:35
没想到,最Open的开源新模型,来自小红书

没想到,最Open的开源新模型,来自小红书

没想到,最Open的开源新模型,来自小红书

迄今为止行业最大的开源力度。在大模型上向来低调的小红书,昨天开源了首个自研大模型。

来自主题: AI技术研报
8048 点击    2025-06-07 15:32
你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

20万次模拟实验,耗资5000美元,证实大模型在多轮对话中的表现明显低于单轮对话!一旦模型的第一轮答案出现偏差,不要试图纠正,而是新开一个对话!

来自主题: AI技术研报
6388 点击    2025-06-07 15:01
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架

图像生成、视频创作、照片精修需要找不同的模型完成也太太太太太麻烦了。 有没有这样一个“AI创作大师”,你只需要用一句话描述脑海中的灵感,它就能自动为你搭建流程、选择工具、反复修改,最终交付高质量的视觉作品呢?

来自主题: AI技术研报
8481 点击    2025-06-07 14:49
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
7876 点击    2025-06-07 14:20
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

RNN太老,Transformer太慢?谷歌掀翻Transformer王座,用「注意力偏向+保留门」取代传统遗忘机制,重新定义了AI架构设计。全新模型Moneta、Yaad、Memora,在多个任务上全面超越Transformer。这一次,谷歌不是调参,而是换脑!

来自主题: AI技术研报
8630 点击    2025-06-07 14:19
扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。

来自主题: AI技术研报
10461 点击    2025-06-07 14:05
马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

马斯克祸不单行!擎天柱负责人突然离职,特斯拉蒸发万亿市值

真是屋漏偏逢连夜雨! 就在特斯拉创下单日最大跌幅,市值蒸发1500亿美元(折合人民币约10784亿元)之际,马斯克又痛失一位悍将——

来自主题: AI技术研报
7398 点击    2025-06-07 14:04
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」

在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 “慢思考” 模型凭借显式反思机制,在数学和科学任务上展现出远超 “快思考” 模型(如 GPT-4o)的优势。

来自主题: AI技术研报
7947 点击    2025-06-07 11:00
RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

RLHF已死,RLVR引爆AGI革命!Claude 4核心成员万字对谈

AI顶流Claude升级了,程序员看了都沉默:不仅能写代码能力更强了,还能连续干活7小时不出大差错!AGI真要来了?这背后到底发生了什么?现在,还有机会加入AI行业吗?如今做哪些准备,才能在未来立足?

来自主题: AI技术研报
7547 点击    2025-06-07 10:43
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力,也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现,研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报
8972 点击    2025-06-07 10:35
阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。

来自主题: AI技术研报
7290 点击    2025-06-06 16:31
苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

苹果最新研究揭示大推理模型(LRM)在高复杂度任务中普遍「推理崩溃」:思考路径虽长,却常在关键时刻放弃。即便给予明确算法提示,模型亦无法稳定执行,暴露推理机制的局限性。

来自主题: AI技术研报
7677 点击    2025-06-06 16:14
最新进展!国内医学AI领域迎来新突破,这些大模型你了解吗?

最新进展!国内医学AI领域迎来新突破,这些大模型你了解吗?

最新进展!国内医学AI领域迎来新突破,这些大模型你了解吗?

肾病防治迈向智能化、精准化:北大第一医院发布“肾说”大模型,医疗科技的不断创新,正在为患者提供更加高效、便捷的医疗服务。

来自主题: AI技术研报
8008 点击    2025-06-06 14:30
5 万行代码 Vibe Coding 实践复盘:最佳实践、关键技术,Bitter Lesson

5 万行代码 Vibe Coding 实践复盘:最佳实践、关键技术,Bitter Lesson

5 万行代码 Vibe Coding 实践复盘:最佳实践、关键技术,Bitter Lesson

这篇文章不只是关于 Coding Agent 的使用体验,也包括对相关关键技术,例如语言搜索、MCP 的探索和理解。Coding Agent 结合 MCP 是一种值得探索的新的自动化方式。

来自主题: AI技术研报
8827 点击    2025-06-06 12:17
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制

Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生——Max Planck

来自主题: AI技术研报
5759 点击    2025-06-06 12:08
RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

RAR让Agent学会「成为角色」那样思考,而不仅是「像角色」一样说话 |最新

您有没有发现,现在市面上的AI角色扮演的Agent总有种「隔靴搔痒」的感觉?用户和AI聊天时,AI虽然能说出符合角色设定的话,但总觉得缺了点什么——就像演员在背台词,而不是真的在思考。感觉很假,也很奇怪。

来自主题: AI技术研报
7697 点击    2025-06-06 12:02