DACON 대회 참가 기록 #1

바람찬허파·2023년 4월 30일

친구들과 함께 DACON 신청과 Team 결성을 마무리했다

친구들에 비해 인공지능 관련 지식이 전무하기에, 바로 공부를 해보려 했으나... DACON 데이터부터 이해가 안 갔다 😞

데이터 압축을 풀자마자 csv, test와 train 폴더가 있는데,

도대체 이 데이터를 어떻게 사용해야 하는지 하나도 모르겠다..😢

test data ↔️ train data

train data로 모델을 학습, train 데이터로 모델의 정확도 확인

범용적인 모델을 원하기에 기존 데이터를 test, train 두 종류로 나누어 train으로만 학습한다.
test data가 unseen data의 역할을 한다.

🚨 주의해야 하는 점 : validation
모델의 정확도 검증을 위해 test data만 사용하면, test data에 overfit 된다 -> 다른 unseendata에 예측력이 떨어질 수 있음

validation
학습 완료된 모델을 검증을 위함
학습에 직접적으로 관여하지는 않으나, 일정 부분 관여

Train 학습
Validation 검증 (train data의 일부를 사용)
Test 성능 평가

Train 데이터의 일부를 Validation에 사용 (범용적인 모델을 위함)
e.g. train data의 성능 좋으나, validation data의 성능이 낮다면 -> train data에 과적합되었을 가능성 높음

Train : Validation : Test = 6 : 2 : 2

데이터 양이 너무 적은 경우-> 교차검증 (cross validation) 사용
sklearn.model_selection.train_test_split() 함수 사용