오늘은 KDT에서 진행한 캐글 경진대회가 있었다.
우리조는 아래와 같은 시행착오(?)를 겪었다.
나는 결정트리 기반 모델 알고리즘을 모르는데 스코어가 높은 모델들은 거의 결정트리 기반 모델이였다.
정말 공부할게 많은것 같다.
타이타닉
- 전처리 부분
- 수정한 특성
- 선택한 특성값
- [‘Pclass’, ‘Name’, ‘Sex’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’, ‘Cabin’]
- 사용한 모델
- LogisticRegression
- BaggingClassifier
- GridSearchCV
- DecisionTreeClassifier
- 하이퍼파라미터 튜닝
보스톤 집 가격 예측
- 전처리
- 피쳐스케일링
- train과 test 셋에 동일한 feature engineering을 적용해주기 위해 우선 두개의 데이터 셋을 하나로 합치기
- 각 칼럼별로 Null값 비율이 50%이상인 칼럼을 찾아 해당 칼럼을 제거
- 원핫인코딩
- 나머지 컬럼의 널값들을 평균값으로 대체(imputer이용)
- 사용한 모델
- 선형회귀
- 랜덤포레스트
- XGBRegression
- 그리드서치