GAE (Generalized Advantage Estimation): 안정적인 학습의 비결
GAE (Generalized Advantage Estimation) 쉽게 이해하기
PPO나 A2C 같은 알고리즘에서 Advantage($A_t$)를 어떻게 추정하느냐는 성능에 결정적인 영향을 미친다. GAE는 bias-variance trade-off를 조절하여 안정적인 Advantage를 계산하는 기법이다.
1. TD Error와 n-step Return
- 1-step TD: $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ (Bias 큼, Variance 작음)
- Monte-Carlo: 실제 끝까지 간 보상 합 (Bias 작음, Variance 매우 큼)
GAE는 이 둘 사이를 $\lambda$ 파라미터로 조절한다.
\[A_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}\]즉, 가까운 미래의 TD error는 크게 반영하고, 먼 미래의 TD error는 적게 반영하여 부드럽고 안정적인 추정치를 만들어낸다. 이것이 PPO 학습 안정성의 핵심 비결 중 하나다.
댓글남기기