刚刚过去的WAIC大会现场,一套同传系统彻底惊艳了全场。
AI教父Hinton的重磅演讲《数字智能是否会取代生物智能》金句频出,时不时引起全场赞叹。
当他用标准的伦敦腔讲述自己的观点时,几乎就在张口的同一瞬间,标准的中文翻译就同步出现了右边的大屏上。
而在场的每一位观众,都能立刻秒懂对应的英文内容,因为右边的字幕精准、流畅,完全符合中文读者的理解习惯。
无论是多专业的术语,多深奥的表达,都能立刻被这套系统完美地捕捉,转化出的翻译极度符合语境。
演讲结束后,现场爆发出热烈的掌声,可以说,一方面是出于现场观众对于AI教父精彩演讲的反响,另一方面,也是对于旁边这位由AI「国家队」科大讯飞打造的「AI同传」的肯定。
要知道,2018年讯飞还在和国内其他大厂同台竞技,共同为WAIC提供AI同传服务;而到了今年,讯飞已经成了WAIC 2025的唯一翻译合作伙伴。
走到这个位置,懂行的人都知道一款产品得做到多么优秀才行。毕竟,WAIC的现场可随时随地都是真刀真枪的考验——30多个国家、1200余位嘉宾的实时交流场景,能完美做到无障碍跨语言交流,技术门槛可谓相当高。
七年里,究竟发生了什么,让讯飞的产品成为了国际大会的AI同传首选?
WAIC 2025唯一翻译合作伙伴
讯飞如何做到?
这,就要从以往同传背后的重重难点说起。
很多人认为,如今AI大模型的突飞猛进,实时语音同传必然变得轻而易举。
然而出乎大家意料的是,多年以来AI同传其实都难以完全落地。
首先的一大难点,就是实时性与高延迟之间的矛盾。
因为同传强调的是同步,延迟必须极短,翻译结果必须准确,还要几乎立即同时呈现。在这种极端情况下,很难避免翻译质量的下降。
第二大难点,就是上下文语境的精准理解。
人类语言中充满了歧义、隐喻、指代,这些都需要结合上下文才能准确理解。想要实时准确翻译大量专业术语,就需要提前做好知识储备和领域知识建模。
一些让人啼笑皆非的AI翻译翻车现场(左右滑动查看)
更何况,大会演讲者可能使用不同的方言和口音,甚至会出现口误;会议的演讲现场也环境复杂,会存在噪音、回声、交叠说话等问题。
比如,这位日本科学院院士Toshio Fukuda的日式英语,对AI同传就是不小的挑战
此外,不同语言的结构差异,也会让同传的难度大大增加。比如中英文的语序截然不同,翻译系统很可能需要等待一句话结束,才开始翻译,这就会带来严重的延迟。
同传中还有一大难点,就是语音合成。在传统同传模式下,最终的翻译由译员的声音播报,这使得听感比视觉呈现更为流畅,不会对视觉造成干扰。
而在AI同传要达到同样的效果,就需要声音快速无缝衔接,仿佛有一个真人在播报出来一样。这就需要在技术上达到极细致的要求。
而且,同传需要同时实现语音识别、语言理解、机器翻译、语音合成等多个技术模块的高度融合,技术链条复杂。
还有就是,高质量平行语料的匮乏,也制约了模型的训练效果。
真正的同传大模型,需要做到什么?
好在,现在不少AI同传产品,开始尝试解决这些问题,一些还取得了不错的效果。
在国外,诸如Zoom自带的AI Companion和Zoom Interpretation这类实时翻译与同传工具,能够很好地服务于专业会议及网络研讨会。
不过,尽管它支持多种主流语言,集成度出色,非常适合商务场合使用,但翻译质量尚有提升空间,且价格偏高,部分高级功能还需通过付费订阅来解锁。
Microsoft Teams,也可以通过集成Azure的语音识别和翻译服务,从而实现多语种的字幕和翻译,能支持70+种语言。
它的翻译倒是很流畅,然而缺点也很明显:设置复杂,需要一定的技术集成能力,这就大大提升了门槛,不适合亟需翻译场景的小白用户。
谷歌家当然也少不了类似产品。
比如Google Meet内置字幕功能+自定义集成Google Translate,就能实现AI同传。
这个产品的特点是延迟低,非常适合教育和远程协作。然而它的翻译精度严重依赖语境,在专业术语的翻译上时常出现翻车的情况。
视频中可以看出,Google Meet在英语和西语的互译上延迟极低,效果不错
在国内,许多AI同传产品完全不输外国AI。
其中,作为WAIC 2025的唯一合作伙伴,科大讯飞在AI同传领域尤为引人注目。
纵观市场上的主流AI同传产品,竞争的焦点普遍集中在延迟、专业术语准确度、多语言支持以及语音效果等关键指标上。
在这些方面,讯飞星火语音同传大模型均表现出色。
以往很多传统的同传大模型,基本上采取传统的「语音识别+文本翻译+语音合成」串联模式,上文所提到的种种弊病,都难以打破。
然而所有这些「魔咒」,却都被科大讯飞的星火语音同传大模型克服了。
该模型基于机器学习(ML)和大规模语言模型技术,实现端到端语音实时翻译。
基于星火X1底座,其在四大维度——翻译效果、响应时间、专业覆盖、语音品质上,呈现出系统性领先优势,而非单点技术突破。
它模拟了人类译员思维链路,通过智能意群切分、上下文精准选词和碎片化信息重组,实现了无缝的跨语言实时交流。
在实时性、准确性和专业性上,它在行业内都做到了最优,如母语般丝滑交流。
在保证翻译质量的同时,模型实现了2秒极致响应,达到人类顶尖同传译员的水平。
全新升级的语音同传大模型,针对医疗、制造业、金融等高壁垒专业领域深度优化,覆盖了超8万个专业词汇。
实测显示,专业内容翻译得分超90分,业内率先达到「可用」标准。
此外,其智能双语识别功能,在中英文混合发言的情况下,也能自动切换翻译方向。
要知道,真正的同传大模型,绝不能仅仅是翻译工具,而是一种交流方式的彻底革命。
在这次Hinton演讲的同传任务中,星火语音同传大模型的表现,实在可以称得上是国民级AI同传的水平,在全世界观众面前都十分拿得出手。
比如,当Hinton讲到关于同一个词语意义的两种不同理论时,大模型在屏幕右侧迅速给出了正确通顺的翻译——
「为了捕捉意义,我们需要一种类似关系图的东西,心理学家曾相信一种截然不同的理论,即一个词的意义只是一大堆语义和句法特征」
这种学术性和专业性非常高的知识,大模型能够即时给出足够精准的翻译,能力可见一斑。
可以说,当竞品还在苦苦追赶「能用」的水平时,星火已经狂飙到「好用」的境界,堪称AI同传界的「卷王」。
国内首个同传大模型
讯飞何以快人一步?
要说现在国内做语音同传最牛的,讯飞可真是独一档的存在,其他家还没有谁能跟上这个节奏。
而这个成就,可不是一夜之间取得的。可以说,讯飞的硬核实力,靠的是20多年来在语音技术领域的「死磕」。
早在2010年,这家公司就All in深度学习搭上AI快车,成为了全球最早一批搞机器学习的玩家。
一年后,其自研的基于深度神经网络「中文语音识别系统」正式上线,直接把行业甩在了身后。
这些都为后来的技术演进埋下了关键伏笔。
此后数年,讯飞在技术和应用上双线狂飙,拿奖拿到手软——
2018年,讯飞机器翻译口译能力首次拿下了CATTI翻译资格考试;2019年,其机器阅读理解能力,在全球首次超越人类平均水平。
在语音识别上,2016-2023年,讯飞连获国际多通道语音分离和识别大赛CHiME五连冠;在多语种翻译上,又在2021-2023年连续三届拿下IWSLT冠军。
如今星火大模型的快速迭代,直接把科大讯飞的技术底盘又往上拉了一层。
WAIC上,星火X1基于全国产算力平台「飞星一号」,采用端到端架构,直接把传统「语音识别-翻译-语音合成」三步流程简化成一步,极大提升效率、降低延迟。
这也就是为什么,我们能看到Hinton说话和字幕的出现做到了神同步。
而且,基于X1的多语言能力,星火同传大模型不仅能「听懂」复杂语境,还能精准捕捉语义、语调和专业术语,全场丝滑无压力。
而这背后,都是讯飞多年来广泛积累的数据在做支撑——他们已经为全球超过40万场国际会议做过同传,数据维度广,最不缺的就是覆盖多语种、多场景的真实语料,堪称行业翘楚。
更不要说,讯飞的开放平台上,还拥有广大的52万海外开发者。这就让数据池源源不断,生态持续壮大。
总之,讯飞实打实地经历了一场场真金白银的考验——从北京冬奥会、进博会,再到联合国会议,无论是多么高规格的国际场合,它的AI同传技术都能carry全场,在每一次实战中都获得了满场称赞。
可以说,讯飞能在全球的AI同传领域稳站C位,靠的就是一步步打出来的技术和经验。
而现在国内首个同传大模型的发布,更是代表着全新的里程碑。不仅讯飞交出了漂亮的成绩单,在全球赛道上冲到了最前排,也让人类的「语言无障碍」变得越来越近了。
软硬一体,用「服务闭环」征服WAIC
WAIC上,讯飞不仅以技术实力霸屏会场,更通过「软硬一体」的战略,完美适配了国际会议的复杂场景。
这一现象背后,折射出AI同传技术的新趋势以及市场竞争的新格局。
当前来看,AI同传市场早已从单一技术输出,转向了生态的竞争。一些单一技术提供商或纯软件方案,往往在复杂场景下适配性不足。
讯飞软硬一体战略,并非是简单的产品堆叠,而是以星火「全家桶」为核心,通过硬件协作持续放大的技术能力。
举个栗子,首款搭载离线LLM翻译设备「讯飞双屏翻译机2.0」,能精准分离多方发言,自动切换翻译方向,延迟率非常低。
WAIC展览馆中,一位来自泰国Omniscien公司的CTO Dion Wiggins对讯飞的多语种透明屏技术赞不绝口。
不仅如此,AI同传的竞争已从算法精度转向了场景适配能力,而硬件是实现这一跃迁的关键。
相较于纯软件方案,讯飞翻译硬件通过场景化设计,能够直接触达用户需求。
WAIC现场3款新系列的讯飞AI录音笔的首秀,分别针对学生、职场人、商务人士提供了定制化需求,并覆盖了课堂、办公等多种场景。
还有讯飞同传和同传耳机的协作,进一步放大了星火大模型的能力。
WAIC参会者通过耳机收听AI合成的语音,再结合屏幕的实时字幕,即能体验「听译同步」的沉浸式沟通。
更重要的是,讯飞的软硬件协作逻辑,不仅在于单一设备的突破,更在于多设备的协同,形成了覆盖WAIC全场景的「服务闭环」。
在大会的翻译服务点,讯飞还提供了现场租借的翻译机,让参会者即拿即用,与全球同行无障碍交流。
这届WAIC大会,涵盖了开幕式、3场主论坛,以及19场分论坛,涉及到多语言、多场景的并发需求。
讯飞同传通过大屏幕实时呈现多语种字幕,为开幕式和分论坛的顺利沟通提供了保障。
这种从前端硬件到后端服务的闭环能力,恰恰体现了讯飞对国际会议场景的深刻洞察,也彰显了其硬件赋能在提升服务效率上的核心价值。
当然了,能成为国际会议翻译唯一合作伙伴,不仅要技术和服务过硬,还需强大的品牌背书。
如上所述,从2018年首届WAIC开始,讯飞就承包了翻译重任,为各路AI大牛们「搭桥」。
如今,讯飞凭借其「全栈式」AI同传解决方案,构建了「软件+硬件+服务」三位一体的核心竞争力,以技术突破与生态协同重塑行业标准。
放眼未来,AI同传在教育、旅游、医疗等领域进一步渗透,硬件赋能将成为技术落地的关键驱动力。
讯飞将带领行业打破语言壁垒,登上「巴别塔」之巅,让全球沟通更加高效、自然。
文章来自公众号“新智元”
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales