최대 1 분 소요

모델이 너무 복잡해지는 것을 막기 위해 Loss Function에 패널티 항을 추가하는 기법이다.

\[\mathcal{L}_{total} = \mathcal{L}_{data} + \lambda \cdot \Omega(\theta)\]

1. L2 Regularization (Ridge)

\(\Omega(\theta) = \sum w_i^2\)

  • 가중치들을 0에 가깝게 만들지만 0으로 만들지는 않는다.
  • 모든 특성을 골고루 반영하게 하여 일반화 성능을 높인다.
  • Weight Decay와 수학적으로 거의 동일하다 (SGD 기준).

2. L1 Regularization (Lasso)

\(\Omega(\theta) = \sum |w_i|\)

  • 중요하지 않은 가중치를 정확히 0으로 만든다.
  • Feature Selection (변수 선택) 효과가 있어 모델이 희소(Sparse)해진다.

3. 요약

“L2는 튀는 놈을 깎고, L1은 쓸모없는 놈을 없앤다.”

댓글남기기