데이터가 이미 한 번 정리됨실제 데이터로 연습할 수 있음캐글에 참여하는 방법을 배우기 좋음캐글 노트북을 써볼 수 있음타이타닉을 탔던 사람 중 어떤 속성이 생존률에 영향을 줬을까?Titanic TutorialTitanic - Machine Learning from Dis
Spaceship TitanicTitanic에 이어 Spaceship Titanic 데이터셋으로 학습을 진행했다. 지난 번 Titanic은 Decision Tree를 이용했는데, 이번엔 Tensorflow의 Decision Forests(Random Forest mod
https://www.kaggle.com/learn Intro to Machine Learning 부터 한 course씩 진행하려 한다. Introduction 먼저 기계 학습 모델의 작동 방식과
https://www.kaggle.com/learn 모든 머신러닝 프로젝트의 가장 첫 단계는 data와 친해지는 단계이다. 우리는 Pandas library로 데이터와 친해져보자.Pandas : 데이터 사이언티스트가 데이터를 탐색하고 조작하는데 사용하는 기본
데이터셋에는 너무 많은 변수들이 있음. 이 많은 양의 데이터를 이해할 수 있을 정도의 데이터로 어떻게 압축할 수 있을까?직관 이용하기( 이후 변수의 우선순위를 자동으로 지정하는 통계 기술 이용할 것)변수 또는 열(column)을 선택하려면, 데이터셋의 모든 열 목록을
(3) 과정에서 모델을 만들었다. 이 모델의 성능은 어떨까? 이번엔 model validation(모델 검증)을 통해 모델의 성능(품질)을 측정해보자. 모델을 개선하기 위해서 모델의 성능을 검사하는 것은 매우 중요하다.Model Validation:모델의 예측 정확도그
이제, 모델 정확도를 측정하는 방법을 알았으므로어떤 모델이 가장 좋은 예측치를 제공하는지 다른 모델들로 실험해볼 수 있다. scikit-learn의 documentation에서 Decision Tree에 대한 많은 옵션이 있음을 확인할 수 있다. 가장 중요한 옵션은 트
더 정교한 머신러닝 알고리즘을 사용해보자. Decision Tree는 우리가 힘든 결정을 하도록 한다.잎이 많은 깊은 나무는 너무 적은 수의 집의 과거 데이터에서 나오기 때문에 overfitting의 위험이 있다. 잎이 거의 없는 얕은 나무는 원본 데이터와의 많은 구분
House Prices Competition for Kaggle Learn Users 에 직접 제출해보기! 처음부터 끝까지 모든 과정을 다시 진행한다. 그리고, test_dataset으로 실제 예측값을 내본다.
Pandas : 가장 유명한 데이터 분석 파이썬 라이브러리판다스 라이브러리를 사용하려면, 일단 라이브러리를 import 해야한다pandas에는 가장 핵심이 되는 두 가지 데이터 형식이 있다.바로 DataFrame과 Series이다DataFrame = 표DataFrame
범주형 값 드랍하기순서 인코딩(Ordinal Encoding)원핫 인코딩(One-hot Encoding)범주형 값에 의미있는 값이 많이 없다면 단순하게 드랍하는 것도 가능하다. 물론 이렇게 하면 정확도가 낮아질 확률은 있지만 그래도 제일 간단하다.QnA : exclud