文本识别方法及装置、非易失性存储介质、电子设备

申请号：CN202510330485

申请日期：2025-03-19

公开号：CN120234418A

公开日期：2025-07-01

类型：发明专利

摘要

本申请公开了一种文本识别方法及装置、非易失性存储介质、电子设备。其中，该方法包括：获取训练样本集合；获取目标数据源中的待处理文本，对待处理文本进行分词处理，得到多个分词结果；根据每个分词结果在待处理文本中的文本位置以及每个分词结果中的预设特征词在第一文本中的出现频率，确定每个分词结果的权重系数；根据权重系数，对关联性指标进行加权求和，得到待处理文本与每个训练样本之间相关性得分；对相关性得分进行分类处理，得到待处理文本属于不同预设标签的概率值，并将最大概率值对应的标签确定为待处理文本的标签。本申请解决了由于相关文本识别无法有效利用关键词位置信息，造成的识别准确率受限的技术问题。

技术关键词

分词文本识别方法非易失性存储介质标签逻辑回归模型指标文本识别装置数值电子设备计算机程序产品频率处理器模块参数关键词存储器序列

系统为您推荐了相关专利信息

一种基于大语言模型的古诗词到视频的生成方法及装置

大语言模型图片视频生成模型生成方法数据

指示器监控方法、装置和电子设备

指示器监控方法图片数据样本

药物疾病关联预测模型的训练方法

网络拓扑结构特征药物疾病无标签样本分类器

数据处理、自然语言处理、法律文档处理的方法及设备

通用机器学习模型标记序列节点自然语言文本

一种面向音频的关键语义信息检测方法

信息检测方法音频特征声学特征语义分类器