一种方言语音识别方法和系统

申请号：CN202510627552

申请日期：2025-05-15

公开号：CN120431909A

公开日期：2025-08-05

类型：发明专利

摘要

本发明公开了一种方言语音识别方法和系统，涉及人工智能技术领域。该方法包括：从多个网络数据源获取目标区域方言类的短视频和音频；对有字幕的短视频进行字幕检测，得到第一音频文本对；针对无字幕的短视频和无字幕的音频，将无字幕的短视频转换为音频，对所有无字幕的音频进行语音识别，确定第二音频文本对；根据有字幕的音频，生成第三音频文本对；并将第一音频文本对、第二音频文本对和第三音频文本对，确定为样本集；通过样本集，对基础Whisper模型进行LoRA微调，得到LoRA微调模型，并将LoRA微调模型和基础Whisper模型进行合并，得到方言语音识别模型；通过方言语音识别模型对待识别语音进行识别，得到待识别语音的文本。该方法能够准确识别目标区域的方言。

技术关键词

语音识别模型音频字幕方言语音识别方法语音识别模块图像模型训练模块样本应用程序编程接口文本识别方法风格语音识别系统资源基础人工智能技术短视频服务器

系统为您推荐了相关专利信息

基于时空特征的多无人机监控暴力行为识别方法及系统

无人机监控辅助无人机识别方法数据视频流

助眠音频生成方法、装置、设备、存储介质

音频特征音频生成方法频谱特征序列噪声频谱

一种语音智能自动配液器

自动配液器中央控制单元语音识别模块电子识别标签药品追溯系统

监控场景内容码流存储方法、装置、电子设备和介质

场景监控图像特征向量交互注意力通道视频帧

语音识别方法、装置、电子设备及计算机可读存储介质

特征提取模型前馈神经网络特征值声学特征语音识别模型