一种基于语义增强混合重建的三维生成方法

申请号：CN202411384389

申请日期：2024-09-30

公开号：CN119273871A

公开日期：2025-01-07

类型：发明专利

摘要

本发明公开了一种基于语义增强混合重建的三维生成方法，包括步骤：1、利用GPT‑4模型将输入的原始文本进行语义增强；2、文本生成二维图像；将语义增强的文本输入到文生图扩散模型，使得生成的二维图像有助于三维重建；3、从二维图像生成多视图，将文生图扩散模型中生成的图像输入多视图扩散模型，生成不同视角下的图像，用来进行三维重建；4、使用图像和文本进行三维混合重建，将生成的多视图和原始文本作为输入，通过三维大型重建模型生成三平面表示；5、从三平面表示生成三维网格；将三平面表示作为输入，利用FlexiCubes进行等值面提取，得到最终的三维网格。本发明解决了三维对象生成缓慢，质量低下，与语义不对齐的情况。

技术关键词

三维生成方法文本语义令牌跨模态融合策略多层感知机层交叉注意力机制融合特征解码器图像编码器生成框架网格图像嵌入融合方法矩阵视觉多视角代表