参数化奖励函数 R(s, a, s'; θ) -> 强化学习训练 (PPO策略 π) 在当前 θ 下优化策略 ->... | SciDraw AI Gallery