旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。
搜索
日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。
具身机器人爆发。
在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。
图灵奖得主Hinton在他的访谈中提及「在未来20年内,AI有50%的概率超越人类的智能水平」,并建议各大科技公司早做准备,而评定大模型(包括多模态大模型)的「智力水平」则是这一准备的必要前提。
在商业需求更明确的未来,FPGA或ASIC将成为更优的底层计算设备。
在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。
外媒最新消息称,美国政府正在考虑进一步限制中国获得尖端半导体技术,包括用于制造AI加速器的关键硬件技术全环绕栅极(GAA)和高带宽内存(HBM)。
都是可选择的一环
让语言模型「轻装上阵」。
Cloudflare最近宣布AI Gateway已普遍可用。AI Gateway作为管理和扩展生成式AI工作负载的统一接口,让开发人员能够监控和控制AI应用程序。