PPO (Proximal Policy Optimization): 안정적인 강화학습의 표준

최대 1 분 소요

1. PPO는 무엇인가?

PPO(Proximal Policy Optimization)는 Policy Gradient 계열의 강화학습 알고리즘이다.
핵심 목적은 “기존 정책에서 너무 멀어지지 않으면서 보상을 최대화하는 것”이다.

PPO는 ratio $r(\theta) = \frac{\pi_\theta(a

s)}{\pi_{\theta_{old}}(a

s)}$를 정의하고, 이 값이 1에서 너무 벗어나지 않도록 Clipping을 적용한다.

\[L^{CLIP}(\theta) = \mathbb{E} \Big[ \min( r(\theta) A_t, \text{clip}(r(\theta), 1-\epsilon, 1+\epsilon) A_t ) \Big]\]

여기서 $\epsilon$은 보통 0.2 정도를 사용한다.

“보상이 아무리 좋아도, 한 번에 너무 급격하게 정책을 바꾸지는 마라”

이 안전장치 덕분에 PPO는 학습이 매우 안정적이며, 현재 대부분의 RLHF 및 로보틱스 제어에서 기본 알고리즘으로 사용된다.

최대 1 분 소요

1. 핵심 질문 기존에는 사람이 프롬프트로 “이럴 땐 이 도구를 써”라고 가르쳤다 (In-context Learning). Toolformer는 묻는다. “모델이 스스로 도구 사용법을 깨우칠 순 없을까?”

최대 1 분 소요

1. 개념 LLM에게 계산기, 검색엔진, 파이썬 인터프리터 같은 도구(Tool)를 쥐여주는 것이다. 모델은 직접 답을 생성하는 대신, “어떤 함수를 어떤 인자로 호출할지”를 결정한다 (Function Calling).

최대 1 분 소요

1. 기존 LLM의 한계 단순히 텍스트만 생성하는 LLM은: 외부 정보 부재: 실시간 정보나 계산 능력이 없다. 환각(Hallucination): 모르는 것도 아는 척한다.

최대 1 분 소요

딥러닝 모델은 종종 틀릴 때조차 99.9% 확신을 가진다(Overconfidence). 이는 의료나 자율주행 같은 분야에서 위험하다.