1. Holdout validation
초기 데이터를 임의로 훈련 데이터와 테스트 데이터로 나누는 방법이다.
예를 들어, 초기 데이터를 70:30 으로 분리하고, 70%는 학습에, 30%의 데이터는 테스트에 사용하여 ROC 곡선이나 F1을 계산하여 검증한다.
하지만 이 방법은 초기 데이터를 어떻게 분류하느냐에 따라 큰 영향을 받는다.
2. Cross validation
먼저 모든 데이터를 k개의 크기가 같은 하위 샘플로 나눈다.
k개의 샘플 세트는 돌아가면서 검증을 위한 세트가 된다.
이 때, 나머지 샘플들은 모델 학습에 사용된다.
최종적으로 k번의 평가 지표의 평균값을 최종 평가 지표로 사용한다.
이러한 방식의 cross validation을 k-fold cross validation이라고 하며, 일반적으로 k값은 10으로 둔다.
Leave-one out cross validation은 매번 하나의 샘플을 남겨 검정으로 사용하고, 나머지 샘플들을 훈련에 사용하는 것을 말한다.
3.