基于分层式复合奖励强化学习的大语言模型XPath生成方法

申请号：CN202511563413

申请日期：2025-10-30

公开号：CN121030536A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了基于分层式复合奖励强化学习的大语言模型XPath生成方法，具体包括以下步骤：步骤1：获取目标网页的HTML源码和页面元素信息并进行数据清洗，得到包含DOM层级顺序结构及元素属性值的结构化数据；对数据清洗后的结构化数据进行数据标注，得到标注数据集；步骤2：选用基础模型，使用标注数据集对基础模型进行监督微调，将经监督微调后的基础模型作为策略模型；构建分层式复合奖励函数进行强化学习微调，使得策略模型的输出层级与输入DOM层级对齐，得到经两阶段微调的最终模型；步骤3：生成标准XPath字符串，并输出与输入DOM层级匹配的结构化数据，以展示标准XPath字符串的逐层构建逻辑。本发明能够生成稳定的XPath并实现生成过程完全透明和可追溯。

技术关键词

生成方法层级分层大语言模型列表结构化数据格式输出序列长度策略元素基础损失函数优化页面预测误差键值逻辑阶段鲁棒性爬虫算法