데이터 사이언스 수업을 들으면서 파이썬 및 데이터 사이언스 관련 정보를 얻기 위해 다양한 사이트를 방문했다. 그중 가장 흥미로운 사이트는 바로 kaggle이다. 캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 이 플랫폼을 통해 데이터 사이언스 및 머신 러닝의 역량을 강화할 수도 있고, 혀냊 해당 분야의 트렌드를 확인할 수 있으며 또한 기본적인 강의도 제공하기 때문에 상당히 흥미롭게 느껴졌다.
케글에서 제공하는 다양한 수업 중 Intro to machine learning를 직접 따라서 코딩해보기로 했다.
import pandas as pd
# 데이터 접근을 쉽게하기 위해 파일 경로를 지정
melbourne_file_path = '../kaggle_data/melb_data.csv'
# 데이터 불러오기 및 저장
melbourne_data = pd.read_csv(melbourne_file_path)
# 멜버근의 부동산 데이터에 대한 요약된 자료를 출력
melbourne_data.describe()
print(len(melbourne_data.columns))
print(melbourne_data.columns)
# dropna 함수를 이용해 결측값이 있는 행을 제거
melbourne_data = melbourne_data.dropna(axis=0)
melbourne_data.describe() # 첫 번째 데이터와 비교해 어느 정도 데이터를 제거했는지 확인할 수 있다.
# dot-notation을 통해 predection target을 선택하기
# y에 집 가격 데이터를 저장
y = melbourne_data.Price
y
# 집 가격을 결정지을 특성(features) 선택하기
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']
# 해당 값들을 x에 저장
X = melbourne_data[melbourne_features]
X.describe()
X.head()
from sklearn.tree import DecisionTreeRegressor
# 모델 정의하기. random_state에 대한 숫자를 지정하여 각 실행의 결과가 동일하도록 한다.
melbourne_model = DecisionTreeREgressor(random_state = 1)
# model fit 하기
melbourne_model.fit(X, y)
No module named 'sklearn'에러가 지속적으로 발생해서 내일 다시 시도해야 할 것 같다. 아마도 파이썬 환경과 쥬피터 노트북 설치 환경 차이에 기인하는 것 같은데 내일 다시 해결책을 찾아서 해결한 다음 남은 코딩을 마무리 하도록 해야겠다.