一种基于矿山的大模型驱动的数字人实时交互方法及交互设备

申请号：CN202411532746

申请日期：2024-10-30

公开号：CN119512369A

公开日期：2025-02-25

类型：发明专利

摘要

本发明提供一种基于矿山的大模型驱动的数字人实时交互方法及交互设备，属于矿山智能化技术领域，搭建前端模块；搭建语音识别模块，通过语音识别模块提供语音识别进程，获取当前服务器指定位置的音频文件进行识别并输出文本；配置矿山大模型模块，配置文本转语音模块，搭建数字人生成模块，数字人生成模块包含训练集处理单元，数字人训练功能单元，数字人生成单元和数字人形象生成模型；配置音视频合成推流模块，音视频合成推流模块对视频信息和语音信息进行合成，实现音画同步并配置为推流信息。本发明的数字人支持与用户在语音、文本和图表等多维度的交互，用户可以通过自然语言与系统进行对话，获得更直观和便捷的信息反馈。

技术关键词

交互方法语音识别模块矿山文本前端模块交互设备音视频展示单元图表推流功能训练集智能化技术数据处理单元服务器音频特征