用于强化学习的方法、装置、设备和介质
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
用于强化学习的方法、装置、设备和介质
申请号:
CN202510900163
申请日期:
2025-06-30
公开号:
CN120822638A
公开日期:
2025-10-21
类型:
发明专利
摘要
提供了用于强化学习的方法、装置、设备和介质。在一种方法中,利用机器学习模型,确定与针对提示词的至少一部分应答相关联的标记序列,标记序列包括由机器学习模型按照时间顺序所输出的多个标记。基于分别与多个标记相关联的多个熵指标,将标记序列划分为多个标记子序列。基于提示词和多个标记子序列,利用机器学习模型确定针对提示词的应答的预测。基于针对提示词的应答和应答的预测,确定与提示词相关联的奖励。利用上述方法,可以以更为准确的方式确定强化学习中的奖励,由此提高机器学习模型的性能。
技术关键词
机器学习模型
标记
序列
指标
处理器
计算机
指令
电子设备
可读存储介质
模块
存储器
参数