基于自然语言特征和自信息的文本压缩方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于自然语言特征和自信息的文本压缩方法
申请号:CN202411438245
申请日期:2024-10-15
公开号:CN119396784A
公开日期:2025-02-07
类型:发明专利
摘要
本发明属于自然语言信息处理技术领域,公开了基于自然语言特征和自信息的文本压缩方法,具体技术方案为:步骤一、对开源语料库中的Google问答数据集进行数据预处理,删除无用信息,模拟多文档检索,获得面向长上下文压缩的数据集,进而获得多文档长文本;步骤二、通过对该多文档长文本进行自信息的评估得到短语粒度、文本自信息分布,同时进行词性分析、命名实体分析、依存关系分析的自然语言特征的提取,优化基于自然语言特征的分布,获得分布优化后的压缩文本;步骤三、压缩文本prompt设置,构建目标问答模型,获得问答性能指标并应用于下游任务中,本发明在长文本压缩准确性上非常出色,提升了文本压缩的性能。
技术关键词
自然语言 文本压缩方法 问答模型 黑盒优化 过滤方法 数据 实体 列表 定义 参数