用于强化学习的方法、装置、设备和介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
用于强化学习的方法、装置、设备和介质
申请号:CN202510900163
申请日期:2025-06-30
公开号:CN120822638A
公开日期:2025-10-21
类型:发明专利
摘要
提供了用于强化学习的方法、装置、设备和介质。在一种方法中,利用机器学习模型,确定与针对提示词的至少一部分应答相关联的标记序列,标记序列包括由机器学习模型按照时间顺序所输出的多个标记。基于分别与多个标记相关联的多个熵指标,将标记序列划分为多个标记子序列。基于提示词和多个标记子序列,利用机器学习模型确定针对提示词的应答的预测。基于针对提示词的应答和应答的预测,确定与提示词相关联的奖励。利用上述方法,可以以更为准确的方式确定强化学习中的奖励,由此提高机器学习模型的性能。
技术关键词
机器学习模型 标记 序列 指标 处理器 计算机 指令 电子设备 可读存储介质 模块 存储器 参数