최대 1 분 소요

GAE (Generalized Advantage Estimation) 쉽게 이해하기

PPO나 A2C 같은 알고리즘에서 Advantage($A_t$)를 어떻게 추정하느냐는 성능에 결정적인 영향을 미친다. GAE는 bias-variance trade-off를 조절하여 안정적인 Advantage를 계산하는 기법이다.


1. TD Error와 n-step Return

  • 1-step TD: $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ (Bias 큼, Variance 작음)
  • Monte-Carlo: 실제 끝까지 간 보상 합 (Bias 작음, Variance 매우 큼)

GAE는 이 둘 사이를 $\lambda$ 파라미터로 조절한다.

\[A_t^{GAE(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}\]

즉, 가까운 미래의 TD error는 크게 반영하고, 먼 미래의 TD error는 적게 반영하여 부드럽고 안정적인 추정치를 만들어낸다. 이것이 PPO 학습 안정성의 핵심 비결 중 하나다.

댓글남기기