최대 1 분 소요

1. PPO는 무엇인가?

PPO(Proximal Policy Optimization)Policy Gradient 계열의 강화학습 알고리즘이다.
핵심 목적은 “기존 정책에서 너무 멀어지지 않으면서 보상을 최대화하는 것”이다.


2. 핵심 아이디어: Clipping

PPO는 ratio $r(\theta) = \frac{\pi_\theta(a s)}{\pi_{\theta_{old}}(a s)}$를 정의하고, 이 값이 1에서 너무 벗어나지 않도록 Clipping을 적용한다.
\[L^{CLIP}(\theta) = \mathbb{E} \Big[ \min( r(\theta) A_t, \text{clip}(r(\theta), 1-\epsilon, 1+\epsilon) A_t ) \Big]\]

여기서 $\epsilon$은 보통 0.2 정도를 사용한다.

“보상이 아무리 좋아도, 한 번에 너무 급격하게 정책을 바꾸지는 마라”

이 안전장치 덕분에 PPO는 학습이 매우 안정적이며, 현재 대부분의 RLHF 및 로보틱스 제어에서 기본 알고리즘으로 사용된다.

태그: ,

카테고리:

업데이트:

댓글남기기