一种基于跨语言集成的零样本文本分类方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于跨语言集成的零样本文本分类方法
申请号:CN202410765291
申请日期:2024-06-14
公开号:CN118332127B
公开日期:2024-08-06
类型:发明专利
摘要
本发明适用于自然语言处理技术领域,具体是一种基于跨语言集成的零样本文本分类方法,该方法包括构建多语言数据集、获取多语言分类文本、文本标签集映射成图像标签集、特征提取、相似度计算和集成预测的步骤,其中,在集成预测的步骤中,本发明运用集成学习的投票策略,选择最终文本分类预测结果并输出。本发明采用了跨语言集成方法,并增加了中文和意大利语的多语言数据集,具备广泛的语言支持和适应能力;本发明采用Multilingual‑CLIP模型,显著提高了零样本文本分类的性能;本发明还采用了投票机制进行预测结果的集成,通过多个模型的预测结果进行投票选择,进一步提高了预测准确性。
技术关键词
文本分类方法 多语言 标签 预测类别 文本编码器 图像编码器 数据 样本 翻译工具 图片 索引 中文文本 变量 集成方法 策略 注意力 英语 图像分割