PPO (Proximal Policy Optimization): 안정적인 강화학습의 표준
1. PPO는 무엇인가?
PPO(Proximal Policy Optimization)는 Policy Gradient 계열의 강화학습 알고리즘이다.
핵심 목적은 “기존 정책에서 너무 멀어지지 않으면서 보상을 최대화하는 것”이다.
2. 핵심 아이디어: Clipping
| PPO는 ratio $r(\theta) = \frac{\pi_\theta(a | s)}{\pi_{\theta_{old}}(a | s)}$를 정의하고, 이 값이 1에서 너무 벗어나지 않도록 Clipping을 적용한다. |
여기서 $\epsilon$은 보통 0.2 정도를 사용한다.
“보상이 아무리 좋아도, 한 번에 너무 급격하게 정책을 바꾸지는 마라”
이 안전장치 덕분에 PPO는 학습이 매우 안정적이며, 현재 대부분의 RLHF 및 로보틱스 제어에서 기본 알고리즘으로 사용된다.
댓글남기기