一种基于机器学习的视觉语言模型构建方法

申请号：CN202410750977

申请日期：2024-06-12

公开号：CN118470158A

公开日期：2024-08-09

类型：发明专利

摘要

本发明涉及视觉语言领域，公开了一种基于机器学习的视觉语言模型构建方法，包括以下步骤：S1：模型架构：结合PaLI架构和Pix2struct的灵活补丁策略，本发明中，通过融合PaLI架构和Pix2struct的灵活补丁策略，采用多模态编码器块，包括视觉编码器（如ViT）和语言编码器（如mT5），以及自回归解码器，实现了视觉和语言信息的深度整合，模型还通过OCR引擎提取和标注屏幕上的文本内容，结合先前的注释生成屏幕描述，提供了屏幕内容的详细表示，通过人工验证确保生成数据的质量，进一步提升了模型的泛化能力和性能，该发明模型在UI和信息图表理解领域展现出卓越的创新性和有效性，为该领域的研究和应用提供了重要的技术支持，并在实际应用中具备实现显著性能提升的潜力。

技术关键词

语言模型构建方法语言编码器屏幕视觉补丁多模态文本训练语言模型光学字符识别答案数据元素图表图像分割摘要策略像素序列解码器