使用大语言模型的合成数据生成

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
使用大语言模型的合成数据生成
申请号:CN202411576514
申请日期:2024-11-06
公开号:CN119962662A
公开日期:2025-05-09
类型:发明专利
摘要
本公开涉及使用大语言模型的合成数据生成。在各个示例中,可以使用包括对应语言模型(例如,自回归LLM)的问题和答案生成模型来生成合成问题‑答案(QA)对。可以使用表示特定知识库的文本数据储存库来通过将来自储存库的文本数据划分为表示上下文的文本单元(例如,段落)来获取合成QA对。对于每个文本单元,问题生成模型可以被提示以从该文本单元生成合成问题,并且答案生成模型可以被提示以生成对合成问题的合成答案。可以使用文本蕴涵和/或人工评估来过滤掉可能由于幻觉产生的低质量、不正确和/或无效的QA对。因此,合成QA对可以用作和/或可以用于生成一个或更多个机器学习模型的训练数据。
技术关键词
答案 处理单元 虚拟现实内容 大语言模型 文本 协作内容 机器学习模型 感知系统 数字孪生 处理器 数据中心 数据储存库 控制系统 基础 序列 机器人 资产 参数
系统为您推荐了相关专利信息
语言知识库 多模态 标签 图像特征编码 样本
自动化测试脚本 大语言模型 生成方法 元素 文本
视频特征提取 视频分析 视频理解方法 空间注意力网络 时序
关键字 文本处理方法 计算机程序产品 眼球追踪技术 文本处理装置
文本分类方法 粒子 特征选择 多头注意力机制 Sigmoid函数