摘要
本发明提供一种术后护理决策支持方法及系统,融合患者的生理时序数据、静态病历和即时检验结果,构建多模态状态向量St,并输入深度Q网络。该网络包括共享编码层、状态价值评估流、双通道优势函数流及临床事件预测流。通过状态价值与优势函数计算动作Q值Q(St,a),再计算其香农熵H,映射为探索率ε,采用ε‑贪心策略选择当前动作At,执行后根据患者反应和临床事件计算奖励Rt,形成状态转移四元组(St,At,Rt,St+1)存入经验池;采样时结合时间差分误差δᵢ和临床风险Cᵢ计算优先级Pᵢ并进行优先采样,通过Q值损失与临床事件预测损失的加权求和,更新网络参数。