基于分层式复合奖励强化学习的大语言模型XPath生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于分层式复合奖励强化学习的大语言模型XPath生成方法
申请号:CN202511563413
申请日期:2025-10-30
公开号:CN121030536A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于分层式复合奖励强化学习的大语言模型XPath生成方法,具体包括以下步骤:步骤1:获取目标网页的HTML源码和页面元素信息并进行数据清洗,得到包含DOM层级顺序结构及元素属性值的结构化数据;对数据清洗后的结构化数据进行数据标注,得到标注数据集;步骤2:选用基础模型,使用标注数据集对基础模型进行监督微调,将经监督微调后的基础模型作为策略模型;构建分层式复合奖励函数进行强化学习微调,使得策略模型的输出层级与输入DOM层级对齐,得到经两阶段微调的最终模型;步骤3:生成标准XPath字符串,并输出与输入DOM层级匹配的结构化数据,以展示标准XPath字符串的逐层构建逻辑。本发明能够生成稳定的XPath并实现生成过程完全透明和可追溯。
技术关键词
生成方法 层级 分层 大语言模型 列表 结构化数据格式 输出序列长度 策略 元素 基础 损失函数优化 页面 预测误差 键值 逻辑 阶段 鲁棒性 爬虫 算法