摘要
本发明涉及数据增强技术领域,揭露一种基于数据增强的语言模型构建方法,包括:将获取的大规模语料数据进行分类,得到文本数据、音频数据和视频数据;对文本数据、音频数据和视频数进行增强,得到增强文本数据、增强音频数据和增强视频数据;提取增强视频数据中每一帧的图像,得到增强图像数据,并分别进行标准化,得到标准文本数据、标准音频数据和标准图像数据;基于数据类别,选择对应的特征转换方法,将数据转换为特征向量,得到文本特征向量、音频特征向量和图像特征向量;通过Transformer模型和各个向量进行模型构建,得到大语言模型。本发明还提出一种基于数据增强的语言模型构建装置、设备及存储介质。本发明可以提高构建的语言模型的性能。