RLHF (Reinforcement Learning from Human Feedback) 완벽 정리
RLHF 정리
1. RLHF 개념 개요
RLHF는 인간의 피드백을 보상 신호로 활용하여 모델을 학습시키는 방법이다. LLM에서 RLHF의 목적은 모델이 “사람이 선호하는 방식”으로 대답하도록 유도하는 것이다 (Alignment).
2. RLHF의 3단계 파이프라인
- Supervised Fine-Tuning (SFT): 고품질 데이터로 기본 모델 학습
- Reward Model (RM) 학습: 사람이 $A > B$라고 평가한 데이터를 바탕으로, 어떤 답변이 더 좋은지 점수를 매기는 모델 학습
- RL (PPO) 학습: Reward Model이 주는 점수를 최대화하도록 PPO 알고리즘으로 LLM을 업데이트
3. 왜 RLHF가 필요한가?
| 일반적인 언어 모델 학습($\max P(y | x)$)은 “다음 단어 맞추기”에 최적화되어 있다. 하지만 이는 사실 여부나 윤리성, 유용성과는 거리가 멀 수 있다. RLHF는 목적 함수를 “사람의 선호도 최적화”로 바꿈으로써, 더 안전하고 유용한 AI를 만든다. |
댓글남기기