수치형 데이터: 사칙 연산이 가능한 데이터연속형: 값이 연속인 데이터, ex) 키, 몸무게, 수입이산형: 정수로 딱 떨어져 셀 수 있는 데이터, ex) 과일 개수, 책의 페이지 수범주형 데이터: 범주로 나누어지는 데이터순서형: 순위를 매길 수 있는 데이터, ex) 학점
Intro 캐글의 플레이그라운드 대회 'Bike Sharing Demand' compeition에 참가해 간단한 회귀 모델을 연습해보았다. 워싱턴 DC의 Capital bikeshare 프로그램에서 과거 사용 기록과 날씨 데이터를 결합해 향후 자전거 대여 수요를 예측하
Intro 캐글의 플레이그라운드 대회 'Categorical Feature Encoding Challenge' compeition에 참가해 이진 분류 문제를 해결해보았다. 이 경진대회는 인위적으로 만든 데이터로 구성되어 있으며 각 feature와 타깃값의 의미를 알
Intro 캐글의 안전 운전자 예측 경진대회 'Porto Seguro's Safe Driver Prediction' compeition에 참가해 다양한 모델링 기법을 연습해보았다. Porto Seguro라는 브라질의 보험사에서 제공한 고객 데이터를 활용해 운전자가 보험
캐글의 안전 운전자 예측 경진대회 'Predict Future Sales' compeition에 참가해 다양한 feature engineering을 시도해보았다.과거 판매 데이터를 바탕으로 향후 판매량을 예측하는 회귀 문제로, 독특하게 train data외에 3가지 데
Intro 캐글의 항공 사진 내 선인장 식별 경진대회 'Aerial Cactus Identification' compeition에 참가해 딥러닝 모델을 다루는 방법을 연습해 보았다. 드론이 보호 구역을 돌아다니며 찍은 항공사진에서 딥러닝 기술로 선인장을 식별하는 작업
캐글의 병든 잎사귀 식별 경진대회 'Plant Pathology 2020 - FGVC7' compeition에 참가해 여러 딥러닝 모델 성능 향상 기법을 연습해보았다.여러 잎사귀 사진을 보고, 딥러닝 모델을 활용해 잎사귀가 어떤 질병에 걸렸는지 식별하는 다중분류 문제이
Intro 캐글에서 다른 캐글러가 공유한 흉부 엑스선 이미지 데이터셋으로 딥러닝 모델링을 연습해보았다. 흉부 엑스선 이미지를 보고 폐렴을 진단하는 모델을 만드는 것으로, 정상인의 엑스선인지 폐렴 환자의 엑스선인지 판별하는 이중분류 문제이다. 경진대회가 아니라 정해진
책 "머신러닝 딥러닝 문제 해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략"을 정독하며 머신러닝, 딥러닝 개념을 다지고 kaggle의 머신러닝 competition 4개, 딥러닝 cometition 2개에 참여해보며 EDA 및 모델링을 연습해보았