최대 1 분 소요

Direct Preference Optimization (DPO) 쉽게 이해하기

핵심 한 줄 요약

DPO는 강화학습(RL)을 직접 사용하지 않고, 사람의 선호 데이터만으로 언어 모델을 직접 최적화하는 방법이다.


1. RLHF와의 관계

기존 RLHF 파이프라인: SFT → Reward Model → PPO DPO: SFT → DPO

Reward Model 학습과 불안정한 PPO 과정 없이, 선호 데이터($y^+$ vs $y^-$)에서 직접 최적화한다.


2. DPO의 핵심 아이디어

DPO의 목적 함수: \(\mathcal{L}_{DPO}(\theta) = - \log \sigma \left( \beta \left( \log \frac{\pi_\theta(y^+|x)}{\pi_{ref}(y^+|x)} - \log \frac{\pi_\theta(y^-|x)}{\pi_{ref}(y^-|x)} \right) \right)\)

이 식은 좋은 답변($y^+$)의 확률을 높이고 나쁜 답변($y^-$)의 확률을 낮추되, Reference Model($\pi_{ref}$)에서 너무 멀어지지 않도록 하는 역할을 한다.


3. 왜 DPO가 PPO보다 좋은가?

PPO (RLHF) DPO
Reward model 필요 필요 없음
복잡한 RL 구조 Supervised Learning (Cross-Entropy 유사)
불안정 안정적

최근 LLM 파인튜닝에서 DPO는 사실상의 표준처럼 자리 잡고 있다.

태그: , , ,

카테고리:

업데이트:

댓글남기기