使用大语言模型的合成数据生成

申请号：CN202411576514

申请日期：2024-11-06

公开号：CN119962662A

公开日期：2025-05-09

类型：发明专利

摘要

本公开涉及使用大语言模型的合成数据生成。在各个示例中，可以使用包括对应语言模型(例如，自回归LLM)的问题和答案生成模型来生成合成问题‑答案(QA)对。可以使用表示特定知识库的文本数据储存库来通过将来自储存库的文本数据划分为表示上下文的文本单元(例如，段落)来获取合成QA对。对于每个文本单元，问题生成模型可以被提示以从该文本单元生成合成问题，并且答案生成模型可以被提示以生成对合成问题的合成答案。可以使用文本蕴涵和/或人工评估来过滤掉可能由于幻觉产生的低质量、不正确和/或无效的QA对。因此，合成QA对可以用作和/或可以用于生成一个或更多个机器学习模型的训练数据。

技术关键词

答案处理单元虚拟现实内容大语言模型文本协作内容机器学习模型感知系统数字孪生处理器数据中心数据储存库控制系统基础序列机器人资产参数

系统为您推荐了相关专利信息

一种提升多模态大模型细粒度识别性能的检索增强方法

语言知识库多模态标签图像特征编码样本

自动化测试脚本生成方法、装置及相关设备

自动化测试脚本大语言模型生成方法元素文本

一种基于大语言模型的视频理解方法及系统

视频特征提取视频分析视频理解方法空间注意力网络时序

网页的文本处理方法、装置和计算机程序产品

关键字文本处理方法计算机程序产品眼球追踪技术文本处理装置

一种基于特征感知的文本分类方法及系统

文本分类方法粒子特征选择多头注意力机制 Sigmoid函数