一种基于大语言模型token的文本通用程度评分方法

申请号：CN202410774677

申请日期：2024-06-17

公开号：CN118627503A

公开日期：2024-09-10

类型：发明专利

摘要

本发明公开一种基于大语言模型token的文本通用程度评分方法。开源tokens收集汇总的方式，旨在充分利用现有大模型训练的通用tokens，形成一种判断文本通用程度的计算方法，本专利的创新点主要体现在设计了一种业界尚未实现的技术思路来评估文本通用程度。本专利通过当前业界简单的操作组合，即可实现判断一个文本通用程度评分方法，但是和传统业界的实现思路完全不同，且思路方案至今未被业界所提出，同时计算实现简单，同时本身能力且有实际价值，判断是否当前文本存在知识明显迁移，从而判断是否需要训练大模型。

技术关键词

文本评分方法分词算法大语言模型模型预训练思路计算方法解码代表词典数据字符索引