一种基于机器学习的视觉语言模型构建方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于机器学习的视觉语言模型构建方法
申请号:CN202410750977
申请日期:2024-06-12
公开号:CN118470158A
公开日期:2024-08-09
类型:发明专利
摘要
本发明涉及视觉语言领域,公开了一种基于机器学习的视觉语言模型构建方法,包括以下步骤:S1:模型架构:结合PaLI架构和Pix2struct的灵活补丁策略,本发明中,通过融合PaLI架构和Pix2struct的灵活补丁策略,采用多模态编码器块,包括视觉编码器(如ViT)和语言编码器(如mT5),以及自回归解码器,实现了视觉和语言信息的深度整合,模型还通过OCR引擎提取和标注屏幕上的文本内容,结合先前的注释生成屏幕描述,提供了屏幕内容的详细表示,通过人工验证确保生成数据的质量,进一步提升了模型的泛化能力和性能,该发明模型在UI和信息图表理解领域展现出卓越的创新性和有效性,为该领域的研究和应用提供了重要的技术支持,并在实际应用中具备实现显著性能提升的潜力。
技术关键词
语言模型构建方法 语言编码器 屏幕 视觉 补丁 多模态 文本 训练语言模型 光学字符识别 答案 数据 元素 图表 图像分割 摘要 策略 像素 序列 解码器