一种基于跨语言集成的零样本文本分类方法

申请号：CN202410765291

申请日期：2024-06-14

公开号：CN118332127B

公开日期：2024-08-06

类型：发明专利

摘要

本发明适用于自然语言处理技术领域，具体是一种基于跨语言集成的零样本文本分类方法，该方法包括构建多语言数据集、获取多语言分类文本、文本标签集映射成图像标签集、特征提取、相似度计算和集成预测的步骤，其中，在集成预测的步骤中，本发明运用集成学习的投票策略，选择最终文本分类预测结果并输出。本发明采用了跨语言集成方法，并增加了中文和意大利语的多语言数据集，具备广泛的语言支持和适应能力；本发明采用Multilingual‑CLIP模型，显著提高了零样本文本分类的性能；本发明还采用了投票机制进行预测结果的集成，通过多个模型的预测结果进行投票选择，进一步提高了预测准确性。

技术关键词

文本分类方法多语言标签预测类别文本编码器图像编码器数据样本翻译工具图片索引中文文本变量集成方法策略注意力英语图像分割