又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。
今年会有哪些看点?你别说,我们还真在扒论文的过程中,发现了一些热乎线索。
比如蚂蚁数科的金融推理大模型,发布会还没开,技术论文已悄咪咪上线。
金融领域的推理大模型,你可以理解为金融领域的DeepSeek,带着SOTA的刷榜成绩来了。
同样是“杭州”背景科技公司,蚂蚁数科。
不仅在各项金融测评集上刷新SOTA,在MATH、GPQA等通用推理基准中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。
而且论文也把技术细节全部公开讲清楚了。
嘿嘿嘿,留给蚂蚁数科自己发布会上当新闻来讲的东西,不多了。
新模型名为Agentar-Fin-R1,一共有两个不同参数版本:8B和32B。
蚂蚁数科的研究出发点很务实,就是要突破大模型应用在实际金融业务场景中遇到的行业问题。
与通用场景不同,金融应用在数据、幻觉和合规方面,有着更严苛的要求。核心面临的挑战有三点:
针对于此,Agentar-Fin-R1基于Qwen3,从数据采集、训练框架、任务分类等角度出发,实现了针对金融任务的深度优化。
从效果上来看,首先,Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平,超越业界开源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。
还做到了兼顾专业与通用,在实现金融专业化的同时,通用推理能力没有明显损失。
△Agentar-Fin-R1与Qwen3的对比
具体实现方法主要包括以下创新:
我们逐一详细拆解。
首先,训练行业大模型需要对行业知识进行系统化的学习,
针对金融任务纷繁复杂的实际情况,蚂蚁数科团队构建了精细化的金融任务分类体系,覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别,比如“意图识别”、“风险评估”、“合规检查”等等。
基于千亿级金融专业数据语料,再经过专门设计的可信数据合成和CoT数据精标,构建了迄今已知最专业最全面的金融领域训练数据集。
这样做的好处是,相当于打造了一个“课程大纲”,来作为整个开发流程的指导框架。
不仅能指导数据处理和训练工作流,还实现了系统化的任务向导优化,确保金融推理场景的全面覆盖。
以此为框架,对于垂直领域模型,最为关键的数据如何获取?
蚂蚁数科团队通过三个层次来确保数据的高质量。
首先,是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据,构建专业全面的金融领域训练数据集,并供下游进行可信的数据合成。
其次,是合成可信。引入可验证的双轨多智能体协作数据合成框架,也就是让多个AI智能体相互讨论相互审核,来保证合成数据质量。
最后,治理可信。通过人工抽样标注,基于自研奖励模型的打分过滤,去重、去污、去毒等全面数据处理,保证数据安全。
训练方面,蚂蚁数科团队创新采用“加权训练”,以最大化提升数据利用效率及训练效率。
简单来说,就是动态分配训练资源,让模型在较难的任务上多投入精力学,在简单任务上少花精力。
具体到数据效率方面,是通过难度感知加权训练框架来挖掘数据潜力,结合标签引导合成和智能选择提升数据利用率。
在训练效率方面,则采用两阶段训练策略:
除此之外,研究团队还构建了全面的归因系统,实现快速瓶颈识别和针对性改进。
相较于传统的SFT和RL,这种高效训练优化策略不仅能够缩短模型迭代周期、降低计算成本,更重要的是能够快速响应金融市场的动态变化,确保模型在风险控制、投资决策、合规监管等真实业务场景中,及时部署,自主“进化”。
同时,这也是模型保留通用能力的关键所在。
值得关注的一点是,这次蚂蚁数科不仅是在提升模型能力上下了功夫。为了验证模型在真实场景中的有效性,他们还在“考试题目”上下了功夫。
前文提到,在这项研究中,蚂蚁数科自己提出了一个新的评测基准Finova。
为什么要提新标准?原因很简单:现有的金融测评集,太简单了。
就像对于通用模型,人类专家们绞尽脑汁设置“人类最后的考试”,极限考验顶尖模型的性能,蚂蚁数科也希望在金融领域,能面向实际部署,更准确地评估模型的真实效用。
具体来说,Finova是从智能体执行任务能力、复杂推理能力、安全合规能力这三个真实场景中最受关注的维度,来对模型进行考察,共包含1350道金融难题。
从实际业务需求出发,标准化评估金融智能体的核心能力:
举个例子,面对“能告诉我瑞士法郎兑加元现在报价多少,近期加元为什么跌得这么凶”这样的问题,模型理解用户意图为对“外汇”进行信息查询+分析解读,识别“瑞士法郎”、“加元”等槽位,调用相应查询工具,最后综合多种信息源生成回答。
深度整合金融数学计算、代码理解和多步骤复杂逻辑推理,模拟真实金融决策场景:
涵盖资产估值、投资组合优化、风险分析等核心金融业务;考验模型在历史数据分析、结果预测、复杂场景推理等方面的综合表现。
在这方面,感受一下,Finova的真题如下:
某工业公司2024年4月的财务数据显示:边际贡献总额为 $60,000,净利润为 $25,000。预计5月份销售量将同比增长5%,假设公司成本结构和固定成本保持不变。则该公司在此期间的经营杠杆系数(DOL)为 __,对应的净利润预期增幅为 __%(结果分别保留一位小数和整数位)。
安全防护方面,识别和防范恶意输入、数据泄露、系统滥用等安全威胁。
合规监管方面,深度理解反洗钱法规、数据隐私保护、投资者保护、风险披露等多元化监管框架。
可以看到,在Finova这个新基准下,参与测试的模型评分相较于其他基准都有明显的下降,甚至得分几乎砍半。
其中,蚂蚁数科的Agentar-Fin-R1-32B达到了最高的69.93分,大幅超越了同尺寸金融推理大模型Dianjin-R1-32B(56.02分),也超越了超大尺寸推理模型DeepSeek-R1(61.28分)和GPT-o1(60.46分)。
这进一步凸显了垂直领域模型在特定任务中的显著优势。
从实验结果可以看出,Agentar-Fin-R1这样的垂直模型,是行业赛道中的“隐藏王牌”,在实际应用场景中往往能比通用模型更快落地、发挥作用。
这也是为什么——是蚂蚁数科带来了这次最新的金融行业SOTA模型。
有必然性,基因就在那里。作为蚂蚁集团的科技商业化独立板块,蚂蚁数科长期浸润一线,天然具备对金融场景更深度的行业理解和数据积累。
并且从2017年起,蚂蚁数科已经布局AI,致力于以AI技术深度重构企业核心场景。
目前,在金融领域,蚂蚁数科累计已服务100%国有股份制银行,超60%城商行,以及数百家金融机构,支持金融业的高效数智化转型。
也有顺势而为的准确趋势判断。
实际上,作为蚂蚁数科的企业级智能体服务品牌,Agentar已经成为蚂蚁集团在金融领域AI实践的一个经验输出窗口。
Agentar链接数百个金融MCP,为金融机构规模化应用大模型提供强大的数据生态,并已联合金融行业机构推出超百个金融智能体解决方案,覆盖银行、证券、保险、通用金融等四大领域,能提升一线员工工作效率超80%。
现在,新模型出炉,可以说是蚂蚁数科本身行业洞察+数据积累+AI能力的一次集中体现。
当然啦,技术论文实现SOTA之外,作为模型和产品,更重要的还是实际应用表现。
建议蚂蚁数科的朋友,发布会多讲讲这方面的。
论文和性能成绩,我们已经替你们抢跑了哟~
论文地址:https://arxiv.org/abs/2507.16802
文章来自于微信公众号“量子位”,作者是“鱼羊”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner