Kim Seon Deok
chapter2 pytorch2. Ai Background-2 본문
과적합의 발생원인
1. 학습할 샘플 데이터 수의 부족
학습할 데이터의 수가 많을 수록 모집단의 특성을 잘 반영할 확률이 높다.
모집단의 특성을 잘 반영할수록 과적합이 일어날 확률이 적어진다.
따라서 학습할 데이터의 수가 적을수록 과적합이 일어날 확률이 높다.
2.풀고자 하는 문제에 비해 복잡한 모델 적용
간단한 문제에 대해서는 간단한 모델 혹은 적은 변수를 사용해야 한다.
3.적합성 평가 및 실험 설계
학습 데이터와 검증 데이터로 분할하고 학습데이터로 모델을 학습한 후 검증 데이터에 모델을 적용시켜 과적합 여부를 판단해야 한다.
하이퍼파라미터(hyperparameter) : 학습데이터를 모델에 학습시킬 때 사용자가 지정해야 할 다양한 파라미터
학습 데이터(training data) : 머신러닝 모델함수 f를 적합시킬 데이터
검증 데이터(validation data) : 학습데이터를 적합시킨 함수를 검증시킬 데이터, 모델의 파라미터를 설정해 검증하는 용도 >> 모델의 성능을 높이기 위한 과정에 있는 파라미터를 설정하기 위한 것
테스트 데이터(test data) : 우리가 전혀 보지 못한 데이터. 모델의 성능을 최종적으로 측정하는 데이터
K-Fold Cross Validation
학습데이터의 수가 많지 않을 경우 사용하는 기법
5개의 fold로 데이터를 랜덤하게 분할, n번째 fold는 검증데이터로, n번째 fold를 제외한 나머지 fold 데이터를 합쳐 학습데이터로 사용. 이를 k번 반복하여 전체 fold에 대한 성능을 평균내면 모델의 평균적인 성능을 측정할 수 있다.
'AI > Pytorch' 카테고리의 다른 글
pytorch chapter3 (0) | 2021.11.22 |
---|---|
pytorch chapter2-2인공신경망 (0) | 2021.11.20 |
chapter2 pytorch2. Ai Background-1 (0) | 2021.11.18 |
chapter1 pytorch 기초 (0) | 2021.11.11 |