医学语言模型构建方法、设备、存储介质及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
医学语言模型构建方法、设备、存储介质及产品
申请号:CN202510002140
申请日期:2025-01-02
公开号:CN119397283A
公开日期:2025-02-07
类型:发明专利
摘要
本申请公开了医学语言模型构建方法、设备、存储介质及产品,涉及计算机语言模型领域。所述方法包括获取对通用预训练数据集中的数据进行领域分类和质量过滤,得到高质量医疗数据集;根据高质量医疗数据集和通用预训练数据集构建得到第一样本数据集,并利用第一样本数据集对第一语言模型进行训练,得到第一训练模型;根据高质量医疗数据集和开源医学SFT数据集构建第二样本数据集,并利用第二样本数据集对第一训练模型进行训练,得到第二训练模型;利用第三样本数据集对第二训练模型进行训练,得到第三训练模型;利用偏好样本数据集对第三训练模型进行训练,得到医学语言模型。本申请解决了传统方法忽略在CPT阶段数据构建的重要性问题。
技术关键词
语言模型构建方法 医学 数据 样本 标签 分类器 指令 计算机程序产品 因子 处理器 过滤方法 答案 可读存储介质 存储器 电子设备 阶段 参数