摘要
一种社会调查中的智能行业分类与编码方法及装置,属于自然语言处理、机器学习及数据分类技术领域。结合分层分类与语义匹配技术,显著提升行业编码的准确性与效率。技术方案:基于BERT模型对待编码行业文本进行行业中类判断,生成前五中类候选;针对每个中类,结合国际标准与自建语料库,通过关键词匹配、浅层语义匹配及深度语义模型进行小类语义相似度计算;最后整合语义权重与业务分析,输出推荐度最高的小类编码。装置包括中类判断模块、小类数据处理模块、多模态语义匹配模块及编码决策模块。有益效果:本发明通过分层分类策略与多模态语义融合,解决了复杂行业文本分类模糊、人工依赖度高的问题,显著提升了大规模数据处理的自动化水平。