1. Cross Validation
- Summarize the k-fold cross-validation method for evaluating a classifier
K겹 교차 검증(the k-fold cross-validation)은 모델을 평가하는 방법 중 하나이다. 머신러닝은 학습데이터를 통해서 학습을 한 후 이를 기반으로 결과를 예측하게 된다. 이때 모델을 평가하기 위해 학습 데이터인 data set을 training set과 validation set으로 나누고 training set으로 학습을 시킨 후, validation set으로 모델을 평가하게 된다. 하지만 과도하게 training set에게 맞추어 학습된 경우, 일반화를 잘하지 못하여서 validation set으로 평가를 하였을 때 잘 동작하지 않을 수 있다. 이 경우에는 training set으로 과적합(overfitting)된 것이다. 이 문제는 noise가 많거나, data set이 작은 경우 발생할 확률이 높다. 이는 data set의 크기를 늘림으로써 해결할 수 있는데 경제적 문제, 시간 문제 등으로 인해 한계가 있을 수 있다. 이를 K겹 교차 검증으로 해결할 수 있다.
K겹 교차 검증은 training set을 균등하게 K개의 그룹(fold)으로 나누고 (k-1)개의 training fold와 1개의 validation fold로 지정한다. Training fold를 이용하여 모델을 학습시키고 validation fold로 정확도를 측정한다. test fold를 바꿔가며 이 과정을 k회 반복한다. K개의 평가 지표를 평균을 내어서 모델의 성능을 평가한 후 최적의 모델을 찾는다. 이를 training set을 학습시키고, validation set으로 평가한다.
이 검증 방법은 모든 data set을 평가에 활용하기 때문에 특정한 data에 overfit 되는 것을 방지하고 좀 더 일반화된 모델을 만들 수 있다. 또한 총 데이터 개수가 적은 data set에 대해 정확도를 높힐 수 있다. 그러나 시간이 오래 걸린다는 단점이 있다.
2. Testing your classifier
- Understand the concept of the precision-recall.
정밀도(precision)란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율이다.
재현율(recall)이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율이다.
'데이터 분석 > 컴퓨터응용확률' 카테고리의 다른 글
uniform distribution (0) | 2022.06.23 |
---|---|
Iris flower identification using Bayesian Classifier - 3 (0) | 2022.06.23 |
Iris flower identification using Bayesian Classifier - 2 (0) | 2022.06.23 |
Data transform (0) | 2022.06.22 |
Gnuplot으로 그래프 그리기 (0) | 2022.06.22 |
댓글