데이터 분석가 : 이미 존재하는 데이터를 SQL 혹은 Python을 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당
데이터 엔지니어 : 데이터 를 적재하고 수집
데이터 수집 방법
탐색적 데이터 분석(EDA)
과적합은 머신러닝의 적
예측 혹은 분류를 하기 위해서 모형을 복잡도를 설정
과적합의 원인
과적합 해결 : 테스트 데이터의 분리
교차검증 : 데이터 셋을 여러 개의 하위 집합으로 나누더 돌아가면서 검증 데이터로 사용하는 방법
K-Fold Validation
GridSearchV ( 하이퍼 파라미터 자동적용하기 )