学术问答模型训练方法、答案生成方法、装置及相关产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
学术问答模型训练方法、答案生成方法、装置及相关产品
申请号:CN202411117898
申请日期:2024-08-15
公开号:CN119311813A
公开日期:2025-01-14
类型:发明专利
摘要
本公开涉及自然语言处理技术领域,公开了一种学术问答模型训练方法、答案生成方法、装置及相关产品;其方法包括:获取开源预训练数据集和学术预训练数据集;学术预训练数据集中的文本数据包含至少一个标签,标签用于表征文本数据中结构化文本的含义;利用开源预训练数据集和学术预训练数据集,对初始问答模型进行训练,得到预训练好的问答模型;获取为下游学术任务构建的指令微调数据集;基于指令微调数据集,对预训练好的问答模型进行微调训练,得到目标问答模型。本公开将开源数据和学术数据共同作为预训练数据;并在学术预训练数据中加入表征结构化文本含义的标签,从而可以使模型能够更好的理解学术内容,确保生成的答案更具有学术专业性。
技术关键词
问答模型训练方法 答案生成方法 文本 数据 标签 计算机程序产品 中文关键词 指令 电子设备 可读存储介质 摘要 封闭式 识别算法 训练装置 模块 生成装置 自然语言