基于文档标题层级结构的文档内容切分方法、装置及设备
申请号:CN202410815757
申请日期:2024-06-24
公开号:CN118734795A
公开日期:2024-10-01
类型:发明专利
摘要
本发明实施例公开了一种基于文档标题层级结构的文档内容切分方法、装置及设备。该方法包括:获取待切分文档,并识别待切分文档中的文档名称、各层级文档标题、以及文档段落;根据各文档段落在文档中所处的章节位置,确定与各文档段落对应的文档标题集;根据待切分文档的上一切分结果、当前文档段落以及下一文档段落,确定当前文档段落是否满足预设切片条件;若是,则更新当前文档段落以及下一文档段落继续判断;若否,则根据上一切分结果至当前文档段落的上一文档段落之间的段落内容,及对应的文档标题集,生成当前切分结果。该方法切分方式简便、可以保证切分片段的语义完整性,最大程度保留语义信息,有利于快速确定切分结果的语义。
技术关键词
表格
层级
切片
切分装置
可读存储介质
计算机
语义
电子设备
处理器通信
识别模块
图片
存储器
指令