文档图像还原及多模态大模型训练方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文档图像还原及多模态大模型训练方法和装置
申请号:CN202410867247
申请日期:2024-06-28
公开号:CN118823798A
公开日期:2024-10-22
类型:发明专利
摘要
本公开提供了文档图像还原及多模态大模型训练方法和装置,涉及计算机视觉、深度学习以及大模型等人工智能领域。其中的方法可包括:获取待处理的目标文档图像;将目标文档图像作为多模态大模型的输入,得到输出的第一文件,第一文件为符合预定表示格式的超文本标记语言文件;根据第一文件生成作为还原结果的第二文件,第二文件为可编辑的文件,且第二文件中包括目标文档图像中的文档内容。
技术关键词
超文本标记语言 表格 坐标 样本 大语言模型 多模态 语义特征 图像编码器 标签 模型训练方法 矫正 格式 图像特征提取 模型训练模块 图像获取模块 图像还原装置 图像还原方法