摘要
本发明公开的属于自然语言处理技术领域,具体为基于对比学习的长文本表征加速系统及方法,包括:数据预处理模块,用于对输入的长文本进行文本清洗、分词与标注、文本截断与分块的预处理;领域知识融合模块,用于将领域知识融入到文本表征中,以能够对文本中的词汇与领域知识进行映射和关联,丰富文本的语义信息;对比学习模块,用于先对数据进行增强操作,接着通过对比学习模型得到文本表征向量,之后再通过多尺度对比学习机制提升长文本表征的全面性和准确性。本发明通过设置的对比学习模块,具有实现在对比学习过程中,能够使模型聚焦于学习正例对和负例对之间的关系,而非对所有词两两计算关联,降低计算复杂度。