一种方言语音识别方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种方言语音识别方法和系统
申请号:CN202510627552
申请日期:2025-05-15
公开号:CN120431909A
公开日期:2025-08-05
类型:发明专利
摘要
本发明公开了一种方言语音识别方法和系统,涉及人工智能技术领域。该方法包括:从多个网络数据源获取目标区域方言类的短视频和音频;对有字幕的短视频进行字幕检测,得到第一音频文本对;针对无字幕的短视频和无字幕的音频,将无字幕的短视频转换为音频,对所有无字幕的音频进行语音识别,确定第二音频文本对;根据有字幕的音频,生成第三音频文本对;并将第一音频文本对、第二音频文本对和第三音频文本对,确定为样本集;通过样本集,对基础Whisper模型进行LoRA微调,得到LoRA微调模型,并将LoRA微调模型和基础Whisper模型进行合并,得到方言语音识别模型;通过方言语音识别模型对待识别语音进行识别,得到待识别语音的文本。该方法能够准确识别目标区域的方言。
技术关键词
语音识别模型 音频 字幕 方言语音识别方法 语音识别模块 图像 模型训练模块 样本 应用程序编程接口 文本识别方法 风格 语音识别系统 资源 基础 人工智能技术 短视频 服务器
系统为您推荐了相关专利信息
无人机监控 辅助无人机 识别方法 数据 视频流
音频特征 音频生成方法 频谱特征 序列 噪声频谱
自动配液器 中央控制单元 语音识别模块 电子识别标签 药品追溯系统
场景监控 图像特征向量 交互注意力 通道 视频帧
特征提取模型 前馈神经网络 特征值 声学特征 语音识别模型