VEM-Token声乐情绪多模态魔改模型的建构方法
申请号:CN202511340091
申请日期:2025-09-19
公开号:CN120853611B
公开日期:2025-12-23
类型:发明专利
摘要
VEM‑Token声乐情绪多模态魔改模型的建构方法,区别于自然语言处理模型NLP‑Token通过文字解释音乐,而是自带声乐情绪多模态信息的VEM‑Token音生文的创新模型。模型对样本歌曲和用户学唱歌曲在音乐节拍上捕捉并对齐,识别声乐情绪多种模态,依据节拍划分文件的词元,采用监督学习和强化学习获得VEM参数,将歌曲分解为歌声、伴奏声和情绪,魔改模型提供多模态的模仿样本歌曲的魔改方法,包括:歌声、伴奏声、情绪泛音、情绪波动、学唱、嗓音克隆、歌词、音高校准、装饰音、节拍长短、节奏快慢、节拍强弱、自由和多样本魔改,提供会员管理、移动端和PC端应用系统、专用支撑硬件和包括MIDI等通信协议,便于接入流行的AI大模型,降低模型幻觉,形成AI声乐智能体Agent和AI卡拉OK。
技术关键词
序列
终点
声乐
样本
风格
建构方法
参数
滤波器
语音合成器
语句
视频
协议
处理器
谐波
多模态信息
频率
回放模块
发声
动态