一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原
一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然,看到很多不错的
最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然,看到很多不错的
在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。
喂给大模型语料——最初是维基百科和Reddit,后来扩展到音频、视觉图像甚至雷达和热图像——后者广义上说是换了种表达方式的语言。也因此有生成式AI的创业者认为,一个极度聪明的大语言模型就是那个通往AGI最终答案,多模态的研究道路只是目前对前者的底气不足。
大模型创业,“最安全”的人来了!吴翰清,前阿里云首席安全科学家、P10级研究员在今年5月离职阿里后,现在被曝投身AI创业。
剑桥大学最新研究显示,AI模型和人脑神经结构有不少相似,也许未来会成为AI模型设计的关键。
随着大模型技术的发展与落地,「模型治理」已经成为了目前受到重点关注的命题。只不过,在实践中,研究者往往感受到多重挑战。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。
ChatGPT被看作是推动数字经济时代生产力范式变革的标志性产品,有望作为新的底层通用技术,点燃第四次科技革命。一言以蔽之,人类社会正处在“跃迁”的关键时点。
化学反应是药物设计和有机化学研究的基础。研究界越来越需要一种能够有效捕获化学反应基本规则的大规模深度学习框架。
大家好,我是许华哲,是一个搞AI的。朋友知道我的专业后,经常会问我,你们每天搞的研究好像很高大上,到底什么时候能让AI帮我把生活里的麻烦事都做了啊?