基于关键词检索DOCX文档内容的方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于关键词检索DOCX文档内容的方法及系统
申请号:CN202511574244
申请日期:2025-10-31
公开号:CN121029978A
公开日期:2025-11-28
类型:发明专利
摘要
本发明属于文本处理技术领域,具体涉及基于关键词检索DOCX文档内容的方法及系统,包括通过解析DOCX文档的Office Open XML结构,结合样式名称等多维特征,利用标题分类得分模型精准区分标题与正文,有效保留了文档的语义层级结构;其次,引入多级语义扩展机制,融合Sentence‑BERT、HowNet知识库与Word2Vec模型,实现对关键词的同义词、近义词智能扩展,显著提升检索的召回率与语义理解能力。再者,采用BM25模型结合段落长度归一化与结构位置权重计算相关性得分,使检索结果排序更加精准合理。倒排索引的构建结合位置编码与压缩优化策略,兼顾检索效率与存储性能。
技术关键词
关键词 同义词 语义 模式匹配 索引 文本 样式 中文分词工具 停用词表 缓存命中率 摘要 自然语言 多级缓存机制 位置映射 模块 序列 字符 列表 模型树