智东西7月9日消息,今日,昆仑万维重磅开源多模态推理模型Skywork-R1V 3.0,这是其迄今最强多模态推理模型,参数规模为38B,在多个多模态推理基准测试中取得了开源最佳(SOTA)性能。
Skywork-R1V 3.0在不到15秒的时间里,深入分析了下面这道高考物理选择题并给出正确答案。
面对这道题,模型需要综合调用物理基础概念、多模态理解能力,最后的结果显示,Skywork-R1V 3.0推理速度相比上一代提升6倍,解题思维链从4000 token降低至700 token。
从基准测试来看,Skywork-R1V 3.0在权威基准测试MMMU中的表现已经接近人类专家水平,并超过超过Claude-3.7-Sonnet 和GPT-4.5等闭源模型。
这一多模态推理模型的核心亮点可以用跨模态推理、跨学科泛化两个关键词概括,既能解数学、物理题,还能完成地理、历史、人文领域任务,同时完成从文本到视觉的推理。
其作为昆仑万维多模态模型体系的关键节点与核心基石,正是昆仑万维探索通用人工智能迈出的重要一步。
昆仑万维已全面开源Skywork-R1V 3.0的所有资源。
Hugging Face:
https://huggingface.co/Skywork/Skywork-R1V3-38B
GitHub:
https://github.com/SkyworkAI/Skywork-R1V
技术报告:
https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf
01.
专业术语秒懂,还能结合图表对应分析
辅助诊断、看梗图样样全能
作为多模态推理模型,Skywork-R1V 3.0不仅可以胜任数学、物理等传统理工科推理任务,还能应对地理、历史、人文、设计等跨学科任务。
话不多说,先来一睹Skywork-R1V 3.0在各项实操任务中的真实水平。
第一大难关是解物理、数学难题。可以看到下面的物理题目中,模型不仅需要对英文题目进行分析,还要识别“unit ramp”等专业术语,并结合图表上给出的信息进行解答,综合调用多项能力才能得出答案,值得一提的是,即使推理链路很长,模型也没有丢失图表中的关键信息。
题目:Consider applying a unit ramp voltage source to a series RL circuit as shown in <image 1>. Compute the voltages $$v_R (t$$ with zero initial condition for L = 0.1H;
Skywork-R1V 3.0识别出了图表中unit ramp代表线性上升的输入电压,调用物理公式等进行推导,并在得出结论后进行了反向推理验证,确认结果满足电路平衡关系。
第二大难关是跨学科能力,从医学相关的实例证明,Skywork-R1V 3.0能根据患者的医疗影像提取关键信息,辅助诊断。
题目:这位64岁的男性有20年的肝硬化病史,图像显示的是增强后的动脉期影像,最可能的诊断是?
Skywork-R1V 3.0综合分析了20年肝硬化病史64岁男性患者的病史、动脉影像特点以及肝细胞癌的表现,在列出可能鉴别诊断的情况下,还针对影像特征进行了具体解释。
多模态推理还有一大更为直观的应用场景,如逛博物馆等,用户想要了解某一件展品需要专业解说、在网上查阅大量资料。
题目:请仔细观察下方图上的音乐家俑,并结合历史背景和视觉细节,使用中文回答以下问题:
1)图中这位女性音乐家在做什么?演奏的是什么乐器?
2)结合其服饰(如条纹长裙、高腰褶皱、双髻发髻)、妆容(白粉面庞、细眉等)及跪坐姿态,她可能属于哪个朝代,来自什么社会阶层或担任何种职能?
3)请联系“墓葬明器”的概念,分析为何墓主要将这些音乐家俑陪葬?
Skywork-R1V 3.0在看到下图中“音乐家俑”后,就可以快速给出他们在做什么、术语说明朝代、来自什么社会阶层、为什么要陪葬等信息。这些内容需要模型细致分析图片上的隐藏信息,并结合对特定历史朝代、社会制度的深入了解,才能得出正确结论。
第三大难关是真实世界中的复杂推理难题。用户日常生活面对的场景往往都包含多元化的复杂信息,如对各地地理特征、人文等需要极度熟悉的“地理定位挑战”,Skywork-R1V 3.0可以凭借下方图片的信息,准确给出其所处位置。
题目:你正在参加一个地理定位挑战,根据提供的图像:
仔细分析图像中的线索(包括建筑风格、标识牌、植被、地形等);按照步骤思考这个地点最可能位于哪个大洲、国家以及城市,并说明原因;根据你的分析估计大致的纬度和经度。
请务必认真推理并给出证据,你的最终答案中必须包含以下五行信息: continent: [大洲名称], country: [国家名称], city: [城市名称], lat: [小数形式的纬度], lng: [小数形式的经度]
从模型的分析过程可以看出,Skywork-R1V 3.0识别了图片中商铺的文字、建筑风格、地形、人流密度等,综合调用了语言理解、空间记忆和知识推理多个能力模块,最终锁定目标。
最后,Skywork-R1V 3.0还能理解网络上的热梗,结合图片内容分析梗图中词语的双关含义给出解释。
题目:解释这个meme
昆仑万维Skywork-R1V研发团队提到,Skywork-R1V 3.0在跨模态、跨学科方面的能力,使其在医疗、教育领域都展现出更为广泛的应用潜力。如医疗领域,其能综合医学影像、病历文本、病人对话进行更准确的诊断建议,教育领域的个性化学习和智能辅导等。
02.
多项评测表现超Claude、GPT
加速实现大模型学习最终目标
从基准测试结果来看,Skywork-R1V 3.0的表现也毫不逊色,已经在多个维度超过同类开源模型和主流闭源模型。
在2025年高考数学新一卷上,Skywork-R1V 3.0取得了142分的成绩,接近Gemini 2.5 Pro等多款闭源模型,成绩如下:
多学科基准测试中,Skywork-R1V 3.0表现逼近人类专家水平。
大规模多学科多模态理解和推理基准测试MMMU中,Skywork-R1V 3.0的基准测试成绩为76.0分,人类专家平均分数为76.2分,其表现超过Claude-3.7-Sonnet 和GPT-4.5等闭源模型。
视觉推理相关的EMMA-Mini(CoT)、中小学知识点测评集MMK12中,该模型表现均超过规模参数更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型。
尤其在物理和逻辑推理领域,Skywork-R1V 3.0相比于上一代模型性能显著提升。多模态大模型物理推理能力测试PhyX、数学能力数据集MMK12中,其均超过Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流闭源模型,Qwen 2.5等开源模型。
在理解物理基础概念和图文结合的复杂物理问题方面,该模型在多模态大模型物理推理能力测试集PhyX-MC-Text-Minimal和SeePhys,表现超谷歌、OpenAI旗下模型。
逻辑推理能力上,其多模态逻辑一致性、条件推理和跨模态因果建模方面优势显著。
综合来看,Skywork-R1V 3.0已经基于文本推理迁移融合视觉推理,实现跨模态推理、跨学科泛化,而这正是昆仑万维加速实现大模型表征学习最终目标的关键一步。
当下关于AI表征有一大讨论,人类观测到的图像、文本等多模态数据是同一客观真实Z的不同投射,而大模型表征学习目标,就是逼近对“Z”的统一、深层理解。昆仑万维Skywork-R1V研发团队通过一个简单的例子进行了说明,以我们看到“苹果”为例,其包含颜色、形状视觉投影,光滑度、重量等触觉投影,甜、酸等味觉投影,综合所有模态数据,才能帮助用户理解“苹果”的整体概念,而不是仅停留在单一的“视觉”或“味觉”认知上。
在此基础上,模型对于多模态信息的深入理解、推理就至关重要,其对于模型完整理解客观世界的关键作用也不言而喻。
03.
冷启动+GRPO强化学习
低成本、高效率激发推理潜能
与此同时,突破模型在单一维度的局限性,构建更全面、更贴近人类认知推理过程的多模态推理模型,也对昆仑万维的研究团队提出了更大挑战。
昆仑万维Skywork-R1V研发团队提到,Skywork-R1V 3.0在跨模态推理、跨学科泛化能力提升的背后有两大关键,一是其跨模态融合机制更加精巧、有效,二是依靠强化学习方法实现了泛化推理能力媲美甚至超越部分闭源巨型模型。
具体来看,昆仑万维研发团队在强化学习GRPO策略、关键熵驱动的模型判别机制、连接器微调与多学科知识矫正的综合作用下,实现了模型推理性能、推理效率的双重提升。
Skywork-R1V 3.0基于其上一代模型Skywork-R1V 2.0蒸馏数据进行“冷启动”,随后引入强化学习算法GRPO深度激发模型的推理潜能,实现推理能力在图像和文本模态之间的迁移,提升其跨模态、多学科场景下的理解与分析表现。最后,其通过约1.2万条监督微调样本和1.3万条强化学习样本就进行了训练。
为了增强模型推理能力的泛化性,研究人员采用了关键熵驱动的模型判别机制,通过监测模型在进入推理关键节点(例如“Wait…”、“Alternatively…”)时输出熵的变化。
这背后的考量在于,研究人员发现具备推理能力的模型会在这些位置输出更高不确定性,仅模仿推理语气的模型则输出低熵、确定性内容,基于此其提出确定性检查点,筛选出了具备推理能力的权重版本。
Skywork-R1V 3.0的能力层层深入,其通过基于1万条高质量、多学科、多模态样本对连接器定向再训练,优化不同领域知识的融合,具备了跨学科推理能力。
与此同时,昆仑万维还针对跨模态连接器进行专门精细微调,使视觉模态提供的细节信息能够在整个推理链条中持续保持清晰且稳定的贡献,保证保持了Skywork-R1V 3.0在深度推理场景下视觉感知的准确性和稳定性,以应对多模态模型推理链条过长时,视觉信息被淡化出现幻觉的风险。
不同于从头大规模预训练增强多模态推理能力的技术路线,昆仑万维将重点放到了模型的后训练阶段,其通过精巧的强化学习策略以低成本激发模型本身潜在的推理能力,实现性能飞跃。研发团队提到,后训练阶段的强化学习可以针对性地激活和深化大规模预训练的潜在能力,同时这种小规模、高质量数据驱动的强化学习更经济高效,可更适合快速迭代并精准地调控模型能力。
Skywork-R1V 3.0正是昆仑万维在探索AGI过程中,提出的一条更低成本、更高效率地激发多模态模型推理潜能的有效路径。
04.
结语:以推理能力为主线
挖掘多模态模型应用潜力
多模态推理模型的应用潜力显现,其可以同时接收文本、图像、音频等多种模态输入,并将其转化为统一的语义表示,能挖掘不同模态数据间的潜在联系,结合多源信息进行动态决策等,都使其成为当下AI行业探索通用人工智能的一个关键里程碑。
率先看到这一技术发展趋势的昆仑万维,自2025年起就已经陆续开源涵盖推理、奖励模型、SWE、空间智能、视频生成等多个SOTA模型,到最新的R1V 3.0,如今其围绕着多模态模型推理的技术体系已经成型,其技术探索正通过开源开放的策略进一步加速AI理解复杂人类意图、实现应用的规模化落地。
关于更多昆仑万维开源模型,可查看其HuggingFace主页:https://huggingface.co/Skywork
文章来自微信公众号 “ 智东西 ”,作者 程茜