Cross-Validation: 모델의 진짜 성능을 검증하는 법

최대 1 분 소요

데이터가 적을 때, 단순히 Train/Test로만 나누면 “운 좋게 쉬운 데이터만 Test 셋에 들어갈” 위험이 있다.

K-Fold Cross-Validation

이 방식은 모든 데이터가 한 번씩은 검증에 사용되므로, 모델의 일반화 성능을 훨씬 안정적으로 추정할 수 있다. (단, 딥러닝에서는 학습 시간이 오래 걸려 자주 쓰이지는 않는다.)

최대 1 분 소요

1. 핵심 질문 기존에는 사람이 프롬프트로 “이럴 땐 이 도구를 써”라고 가르쳤다 (In-context Learning). Toolformer는 묻는다. “모델이 스스로 도구 사용법을 깨우칠 순 없을까?”

최대 1 분 소요

1. 개념 LLM에게 계산기, 검색엔진, 파이썬 인터프리터 같은 도구(Tool)를 쥐여주는 것이다. 모델은 직접 답을 생성하는 대신, “어떤 함수를 어떤 인자로 호출할지”를 결정한다 (Function Calling).

최대 1 분 소요

1. 기존 LLM의 한계 단순히 텍스트만 생성하는 LLM은: 외부 정보 부재: 실시간 정보나 계산 능력이 없다. 환각(Hallucination): 모르는 것도 아는 척한다.

최대 1 분 소요

딥러닝 모델은 종종 틀릴 때조차 99.9% 확신을 가진다(Overconfidence). 이는 의료나 자율주행 같은 분야에서 위험하다.