独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”
9508点击    2025-11-20 16:23

独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”

图片来源:Unsplash


导语


ZP独家获悉,聚焦大模型合成数据领域的 AI 创业公司“数创弧光(DataArc)”已于近期连续完成种子轮及种子+轮融资,累计融资额达数千万元人民币,投后估值数亿元。两轮融资分别由英诺天使基金与东方富海领投,君科丹木、数字未来、启迪之星等一线财务投资机构,以及深智城、头部云厂商等产业资本共同参与。


数创弧光成立于 2025 年 1 月,孵化自粤港澳大湾区数字经济研究院(IDEA 研究院),拥有扎实的科研与工程积累。公司定位于“合成数据”这一新兴、关键且正在被迅速重估的技术赛道,试图系统性缓解大模型在真实数据稀缺场景下所面临的“数据匮乏”瓶颈。


数创弧光所聚焦的合成数据赛道,正是为解决大模型“数据荒”问题应运而生的关键赛道。其中,数创弧光选择了一条差异化的路径:不是泛化地覆盖所有场景,而是通过技术创新精准切入数据缺口显著的蓝海市场——如海外小语种等长期存在结构性数据缺口的市场。


东方富海投资部总经理韩雪松告诉 ZP,在当前 AI 应用加速落地的阶段,高质量数据的稀缺正在成为行业普遍痛点,而数创弧光的技术路径恰好正向这一痛点发力,具备明确的刚需价值与可扩展空间。此外,团队源自 IDEA 研究院,长期在金融、工业等高复杂度场景中积累经验,使其具备将科研成果快速产品化的能力。


在资本趋于谨慎的当下,一家成立不到一年的初创公司为何仍能获得多家顶级机构的连续押注?“合成数据”这一被视作大模型时代“最后增速器”的赛道,又为何会在此时迎来价值重估?数创弧光凭借何种技术与策略,有望在海外小语种等最难啃的“数据硬骨头”市场打开突破口?


一、合成数据:大模型时代的“必答题”


事实上,大模型行业正逼近一个结构性拐点互联网上经过四十年积累的高质量、可合法使用的真实数据,正被模型以远超以往的速度“刷”到见底。数创弧光CEO 江旭晖形容,如今的大模型像“学霸”,把整个互联网这套“高考真题”在极短时间内做完了;如果想继续提升能力,就必须提供面向特定能力训练、更具难度梯度和结构性的“模拟题”——也就是高质量的合成数据。


这一变化背后,是传统 Scale-up 路径的边际效应减弱,以及真实数据在数量、难度和多样性上的全面不足,已成为阻碍模型演进的核心瓶颈。这种技术变革下,让合成数据从“可选项”变成了能够补齐结构性缺口的关键变量。它既是补齐真实数据无法覆盖空白的一条新路径,也是在隐私、合规和成本约束下,为模型提供可规模化扩展数据源的最现实方案。微软、OpenAI和Cohere等公司已使用合成数据来训练模型。


技术侧之外,需求侧也在推动合成数据成为必然趋势。首先,大模型下一阶段的能力提升,已无法仅依赖通用语料,而需要大量面向金融、医疗、法律等垂类场景的任务型数据。但这些数据在真实世界中难以采集、标注昂贵,并受制于合规限制,使得合成数据成为最具可行性的定向强化手段。其次,在隐私、版权与跨境合规压力不断上升的背景下,合成数据可在保持分布特征的前提下去隐脱敏,从源头规避法律风险,同时降低数据成本。


“更重要的是,在小语种和低资源语言场景中,真实语料本就稀缺,合成数据几乎是提升模型性能的唯一可行路径。”江旭晖向Z Potentials表示。正是在这样的行业机遇下,数创弧光应运而生。他进一步提到,关注到大模型对高质量文本数据需求的爆发式增长,团队于去年年底开始筹备,并于今年年初正式成立,选择从文本数据处理切入。


政策层面的信号正在同步强化这一方向。国务院近日印发的《国务院关于深入实施“人工智能+”行动的意见》,在“加强数据供给创新”章节中明确提出“支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业”。这一表述意味着,合成数据已从技术趋势上升为国家层面的战略支撑,被纳入“人工智能+”行动的核心基础能力之列。


技术需求、市场缺口与政策导向三重力量的共同作用下,合成数据的行业时机已被全面打开。


机会摆在眼前,但事实上合成数据的技术难度远比外界想象中更高。江旭晖强调,要让合成数据真正成为大模型能力提升的“模拟题”,首先必须跨过质量、 多样性与可靠性三道门槛,而这恰恰构成了行业当前最核心的技术壁垒。质量意味着数据要逻辑自洽、事实准确;多样性要求覆盖足够多的长尾情境与边缘案例,因为模型往往在这些场景中最容易出错;而可靠性则意味着数据生成流程必须可控、可解释、可复现,不能是一个不可追溯的“黑箱”。


高质量合成数据实际上是一个投入巨大、工程链路复杂、需要跨模型能力与系统化验证的系统工程江旭晖坦言,“要同时满足这三点,本质上是一项‘过去很难做到’的新技术,也正是行业真正的技术壁垒。”


二、从技术破局到商业验证:数创弧光以合成数据撬动海外蓝海市场


面对行业在深度合成数据领域的结构性空白,数创弧光构建了覆盖大模型训练全生命周期(包括继续预训练、有监督微调、强化学习微调)的数据合成方案,并延伸至合成后的数据筛选、质量评估与应用全链条。


在技术路径上,数创弧光通过“语境图谱”把文档、项目、人员和业务知识连接起来,从中选取相关信息,再让大模型生成问答或对话。这种方法让合成数据既有逻辑性,又能覆盖更多场景,避免重复单一,同时保证内容准确可靠。实验数据显示,该方法在多跳问答任务中相比主流基准方案实现了显著提升,准确率提高25.4%,同时成本降低85.7%。其合成的数据质量接近人工标注水平。


独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”

图片来源:数创弧光


除了在内容质量上的突破,数创弧光还开创性地解决了数据安全问题。公司提出的合成数据加密训练技术,使大模型能够“理解”加密数据,无需解密即可完成训练,使合成数据不仅能提升模型能力,也兼顾隐私保护与合规要求。


目前,数创弧光已推出两款核心产品。Living KB专注于企业知识库的动态管理与智能应用,提供语义检索、自然语言查询、图推理分析及自动化报告生成等功能。SynData Platform则提供一站式合成数据生成服务,覆盖文本、表格、时间序列及多模态数据,特别针对阿拉伯语、东南亚语系等低资源语言设计了具备文化适应性的合成框架,并配套提供语音合成、识别与翻译模型,支持企业高效训练与定制领域大模型。


从行业格局看,真正意义上的“合成数据”赛道仍处在早期阶段。现有参与者中,国际玩家如 Scale AI 侧重于数据标注,Meta、英伟达、亚马逊等公司也相继推出相关工具,其重心多在数据标注、治理与隐私保护,对于从根本上填补大模型“数据空白”、直接提升模型认知能力的深度合成数据领域,仍存在结构性空白。面对这一市场现状,数创弧光精准切入,凭借其差异化的技术路径,直指海外小语种等供给严重不足的蓝海地带。


这种市场选择来源于团队对技术现状与场景价值的审慎判断。据创始人江旭晖介绍,他们采用了一套二维坐标评估体系来指导战略聚焦横轴衡量数据稀缺性,纵轴衡量业务价值密度在这一框架下,数创弧光明确将资源集中于“高数据稀缺性”与“高价值密度”交汇的象限——而海外低资源小语种市场,正完美落位于这一高价值区间,成为公司切入并深耕的核心方向。


这一战略布局的背后,体现了公司在技术验证与商业化路径上的系统性规划。江旭晖表示,国内市场是数创弧光验证技术方案与打磨产品的重要场景。通过在金融、工业等高复杂度垂直领域落地,团队持续验证合成数据在可靠性、隐私合规与行业适配性等方面的表现,并依托实际业务反馈不断优化技术架构与算法模型。这一系列实践不仅帮助公司沉淀出成熟的产品体系和实施方法,也为后续向海外市场拓展积累了可复用的经验基础。


目前,公司正在积极布局海外市场,聚焦在低资源、小语种区域,尤其是以阿联酋为代表的阿拉伯语地区。江旭晖提到,“当地语料量仅为英文的约1%,且文化与宗教信息丰富、翻译难度大,直接依赖英文语料或传统翻译无法满足模型训练需求。”正是在这一“数据硬骨头”场景下,数创弧光的合成数据技术展现出独特价值:既能增量扩充小语种语料,又能在生成过程中保持文化和宗教背景的保真性,使模型在低资源环境下也能获得高质量训练数据。


具体应用案例也验证了这一战略。国内,公司已在金融等核心ToB场景完成落地;在海外,团队正稳步推进在中东等地区的商业化部署,已与头部云厂商、头部硬件厂商等具备强渠道和生态资源的伙伴建立深度绑定,并正与数家中东头部客户如国家级政府数字部门、头部典型运营商等推进合作在今年首次亮相海外科技展会(GITEX-ENS)期间,公司已经获得积极订单反馈。


三、如何构筑核心护城河:稀缺数据的“滚雪球效应”


在低资源语言市场的开拓过程中,数创弧光所面对的技术挑战恰恰构成了其核心壁垒。创始人江旭晖在接受采访时指出:“小语种场景的最大难点在于,语料极度稀缺且单纯依靠翻译无法解决根本问题。这类场景对技术要求最高,但一旦突破,在场景中转化为落地解决方案,就会形成足够深的护城河。”


他用小语种场景面临语料稀缺举例,阿拉伯语可用语料中甚至直接翻译无法处理涉及文化宗教内涵的内容。“为此,团队开发的合成数据方案通过知识增强与语境理解技术,在保持文化适配性的同时有效扩充了高质量语料规模。该技术还能突破方言体系下的数据限制,即使汇总同一语系的所有方言,仍能为模型训练提供持续增量。”江旭晖提到,基于自研合成数据训练的阿拉伯语TTS(文本转语音)与ASR(自动语音识别)模型已取得显著效果。


独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”

图片来源:Unsplash


在数据价值日益凸显的当下,英诺天使基金创始合伙人李竹向Z Potentials指出:“数据创新’与模型、算力共同构成了AI发展的底层三要素。无论是模型推理能力的持续增强,还是具身智能的泛化性突破,本质上都依赖于稳定、丰富且合规的数据供给。”随着互联网数据红利逐渐见顶,行业正面临日益严峻的“数据荒”。在这一背景下,数创弧光提前在结构性缺口中完成卡位,以其合成数据技术为隐私敏感、监管严格及小语种等长尾场景重建了数据供给体系,实现了技术路径与市场需求的高度契合。


“我们看重的不仅是其技术原创性,更在于它在中东等海外市场所展现出的快速业务落地能力。”李竹强调,“在真实数据最为稀缺、AI需求却增长最迅猛的区域,数创弧光已经证明了其产品的实际价值。我们相信,它具备成长为这一赛道中基础设施级企业的潜力。”


这种稀缺性数据存在显著的“滚雪球效应”,先获得数据和技术突破的公司会建立起巨大的先发优势,让后来者难以追赶。


而支撑这一技术野心的,是数创弧光源自IDEA研究院的深厚学术基因。公司CEO江旭晖作为中科院计算所博士,不仅是国家级科研项目核心成员,曾获2023年度CCF科技进步一等奖,还深度参与了《流浪地球》系列电影AI设定的创作。CTO徐铖晋博士作为深圳市特聘专家,其开创的时序知识图谱技术与Think-on-Graph系列工作已在业界产生重要影响,他曾入选华为“天才少年”计划并担任IDEA金融大模型研发总负责人。这是一支兼具顶尖学术背景与产业实践经验的团队。


目前,公司已经以文本为技术锚点,陆续完成语音、音频、图像等多模态能力的融合布局。


江旭晖向Z Potentials透露了公司未来规划,一方面在模态层,公司将从文本延伸至多模态及具身智能;另外在架构层,将从纯云架构向端云结合演进。这条从软件智能到软硬一体的技术路径,正在为公司在下一代AI竞争中构建可持续的竞争力。


当大模型撞上高质量真实数据的“天花板”,合成数据正从技术备选项演进为AI基础设施的关键组成部分。而数创弧光的路径,也为国内AI初创企业提供了一个可参考的样本:通过先在复杂场景中打磨技术,再将成熟能力应用于全球蓝海市场,实现从“技术试验”到“商业价值”的跨越。


文章来自于“Z Potentials”,作者 “Z Potentials”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales