一种移动端与后台海量资源数据查重的方法

申请号：CN202410817358

申请日期：2024-06-24

公开号：CN119025928A

公开日期：2024-11-26

类型：发明专利

摘要

本发明公开了一种移动端与后台海量资源数据查重的方法。本发明中，通过多层感知机能够更好地捕捉文本之间的语义关系，从而提高匹配的准确性。通过非线性变换和降维操作，能够挖掘文本更深层次的语义信息。通过输出一个长度为768的匹配向量，便于后续的匹配和分析。固定长度减少了计算复杂度，提高了匹配效率。隐藏层神经元数量的选择可以根据实际需求进行调整，以优化模型性能。激活函数的选择能够影响模型的输出，tanh函数能够提供良好的非线性表达能力。可扩展性和适应性：考虑了不同应用场景的需求，具有较强的可扩展性和适应性。

技术关键词

文本多层感知机 BERT模型资源后台服务器少量标注数据语义向量分词网络爬虫技术数据特征提取多线程技术非线性数据存储日志系统预训练模型移动端性能监控