Model Validation

1. Holdout validation

초기 데이터를 임의로 훈련 데이터와 테스트 데이터로 나누는 방법이다.

예를 들어, 초기 데이터를 70:30 으로 분리하고, 70%는 학습에, 30%의 데이터는 테스트에 사용하여 ROC 곡선이나 F1을 계산하여 검증한다.

하지만 이 방법은 초기 데이터를 어떻게 분류하느냐에 따라 큰 영향을 받는다.

2. Cross validation

먼저 모든 데이터를 k개의 크기가 같은 하위 샘플로 나눈다.

k개의 샘플 세트는 돌아가면서 검증을 위한 세트가 된다.

이 때, 나머지 샘플들은 모델 학습에 사용된다.

최종적으로 k번의 평가 지표의 평균값을 최종 평가 지표로 사용한다.

이러한 방식의 cross validation을 k-fold cross validation이라고 하며, 일반적으로 k값은 10으로 둔다.

Leave-one out cross validation은 매번 하나의 샘플을 남겨 검정으로 사용하고, 나머지 샘플들을 훈련에 사용하는 것을 말한다.

Banana Media Lab