摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种任务动作生成方法、装置、设备及介质,包括:获取并预处理多源感知数据,生成预处理感知数据;提取多种单模态特征向量并融合,生成融合感知特征向量;基于融合感知特征向量确定感知状态,利用感知策略网络生成训练动作;执行训练动作并接收环境反馈,生成经验样本数据并存入经验回放缓冲区;采样训练样本数据,更新感知策略网络参数;通过更新后的感知策略网络生成任务动作。本发明通过融合多源感知数据并引入强化学习机制,使感知策略网络在与环境交互中不断优化。通过经验回放采样提升网络稳定性,最终提升系统对动态环境的适应性与感知准确性。