매개변수화된 보상 함수 R(s, a, s'; θ) -> RL 훈련 (PPO 정책 π) 현재 θ 하에서 ... | SciDraw AI Gallery