
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。
来自主题: AI技术研报
8119 点击 2024-02-05 14:19
最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。
FoleyGen利用现成的神经音频编解码器在波形和离散标记之间进行双向转换。音频标记的生成由单个变换器模型完成,该模型以从视觉编码器中提取的视觉特征为条件。