基于分层式复合奖励强化学习的大语言模型XPath生成方法
申请号:CN202511563413
申请日期:2025-10-30
公开号:CN121030536A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了基于分层式复合奖励强化学习的大语言模型XPath生成方法,具体包括以下步骤:步骤1:获取目标网页的HTML源码和页面元素信息并进行数据清洗,得到包含DOM层级顺序结构及元素属性值的结构化数据;对数据清洗后的结构化数据进行数据标注,得到标注数据集;步骤2:选用基础模型,使用标注数据集对基础模型进行监督微调,将经监督微调后的基础模型作为策略模型;构建分层式复合奖励函数进行强化学习微调,使得策略模型的输出层级与输入DOM层级对齐,得到经两阶段微调的最终模型;步骤3:生成标准XPath字符串,并输出与输入DOM层级匹配的结构化数据,以展示标准XPath字符串的逐层构建逻辑。本发明能够生成稳定的XPath并实现生成过程完全透明和可追溯。
技术关键词
生成方法
层级
分层
大语言模型
列表
结构化数据格式
输出序列长度
策略
元素
基础
损失函数优化
页面
预测误差
键值
逻辑
阶段
鲁棒性
爬虫
算法