VEM-Token声乐情绪多模态魔改模型的建构方法

申请号：CN202511340091

申请日期：2025-09-19

公开号：CN120853611B

公开日期：2025-12-23

类型：发明专利

摘要

VEM‑Token声乐情绪多模态魔改模型的建构方法，区别于自然语言处理模型NLP‑Token通过文字解释音乐，而是自带声乐情绪多模态信息的VEM‑Token音生文的创新模型。模型对样本歌曲和用户学唱歌曲在音乐节拍上捕捉并对齐，识别声乐情绪多种模态，依据节拍划分文件的词元，采用监督学习和强化学习获得VEM参数，将歌曲分解为歌声、伴奏声和情绪，魔改模型提供多模态的模仿样本歌曲的魔改方法，包括：歌声、伴奏声、情绪泛音、情绪波动、学唱、嗓音克隆、歌词、音高校准、装饰音、节拍长短、节奏快慢、节拍强弱、自由和多样本魔改，提供会员管理、移动端和PC端应用系统、专用支撑硬件和包括MIDI等通信协议，便于接入流行的AI大模型，降低模型幻觉，形成AI声乐智能体Agent和AI卡拉OK。

技术关键词

序列终点声乐样本风格建构方法参数滤波器语音合成器语句视频协议处理器谐波多模态信息频率回放模块发声动态