GRPO (Group Relative Policy Optimization): Value Net 없는 효율적 학습
GRPO란?
DeepSeek-R1 등 최신 LLM 연구에서 사용된 기법으로, Value Network(Critic) 없이 PPO 수준의 성능을 내는 알고리즘이다.
한 문장 요약: “여러 개의 답변을 생성한 뒤, 그들끼리 비교(Ranking)해서 학습한다.”
1. 핵심 아이디어: Group Relative Advantage
하나의 질문에 대해 $G$개의 답변을 생성한다. 그리고 그 답변들의 보상 평균을 Baseline으로 삼는다.
\[A_i = r_i - \frac{1}{G} \sum_{j=1}^{G} r_j\]- 평균보다 잘했으면 강화 ($A > 0$)
- 평균보다 못했으면 억제 ($A < 0$)
이 방식은 별도의 Value Network를 학습시킬 필요가 없어 메모리 효율적이며, 학습이 안정적이다. LLM처럼 상태 공간이 너무 커서 Value Function을 정확히 추정하기 어려운 경우에 매우 효과적이다.
댓글남기기