On-policy Knowledge Distillation: 학생이 직접 푼 문제로 배운다

최대 1 분 소요

On-policy Knowledge Distillation은 Student 모델이 자신의 현재 정책으로 생성한 데이터에 대해 Teacher 모델의 지식을 배우는 방식이다.

1. Off-policy vs On-policy KD

Off-policy KD: 고정된 데이터셋(Teacher가 만든 데이터 등)으로 학습.
- 문제점: Student가 실제로 마주할 상황과 학습 데이터 간의 괴리(Distribution Shift) 발생.
On-policy KD: Student가 직접 생성($x \sim \pi_S$)하고, 그 결과에 대해 Teacher가 피드백을 줌.
- 장점: Student가 실제로 헷갈려하는 부분, Student가 도달하는 상태 공간에서 직접적인 교정이 일어남.

이 방식은 Imitation Learning (DAgger 등)이나 RLHF와 유사한 구조를 가지며, 특히 Reasoning이나 Agent Task처럼 긴 호흡의 문제에서 에러가 누적되는 것을 막는 데 매우 효과적이다.

최대 1 분 소요

1. 핵심 질문 기존에는 사람이 프롬프트로 “이럴 땐 이 도구를 써”라고 가르쳤다 (In-context Learning). Toolformer는 묻는다. “모델이 스스로 도구 사용법을 깨우칠 순 없을까?”

최대 1 분 소요

1. 개념 LLM에게 계산기, 검색엔진, 파이썬 인터프리터 같은 도구(Tool)를 쥐여주는 것이다. 모델은 직접 답을 생성하는 대신, “어떤 함수를 어떤 인자로 호출할지”를 결정한다 (Function Calling).

최대 1 분 소요

1. 기존 LLM의 한계 단순히 텍스트만 생성하는 LLM은: 외부 정보 부재: 실시간 정보나 계산 능력이 없다. 환각(Hallucination): 모르는 것도 아는 척한다.

최대 1 분 소요

딥러닝 모델은 종종 틀릴 때조차 99.9% 확신을 가진다(Overconfidence). 이는 의료나 자율주행 같은 분야에서 위험하다.