Intro to Machine Learning

지현구·2022년 7월 10일
0

데이터 사이언스 수업을 들으면서 파이썬 및 데이터 사이언스 관련 정보를 얻기 위해 다양한 사이트를 방문했다. 그중 가장 흥미로운 사이트는 바로 kaggle이다. 캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 이 플랫폼을 통해 데이터 사이언스 및 머신 러닝의 역량을 강화할 수도 있고, 혀냊 해당 분야의 트렌드를 확인할 수 있으며 또한 기본적인 강의도 제공하기 때문에 상당히 흥미롭게 느껴졌다.

케글에서 제공하는 다양한 수업 중 Intro to machine learning를 직접 따라서 코딩해보기로 했다.

import pandas as pd

# 데이터 접근을 쉽게하기 위해 파일 경로를 지정 
melbourne_file_path = '../kaggle_data/melb_data.csv'

# 데이터 불러오기 및 저장
melbourne_data = pd.read_csv(melbourne_file_path)

# 멜버근의 부동산 데이터에 대한 요약된 자료를 출력
melbourne_data.describe()

print(len(melbourne_data.columns))
print(melbourne_data.columns)

# dropna 함수를 이용해 결측값이 있는 행을 제거

melbourne_data = melbourne_data.dropna(axis=0)
melbourne_data.describe() # 첫 번째 데이터와 비교해 어느 정도 데이터를 제거했는지 확인할 수 있다.

# dot-notation을 통해 predection target을 선택하기
# y에 집 가격 데이터를 저장

y = melbourne_data.Price
y

# 집 가격을 결정지을 특성(features) 선택하기
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

# 해당 값들을 x에 저장
X = melbourne_data[melbourne_features]
X.describe()

X.head()

from sklearn.tree import DecisionTreeRegressor

# 모델 정의하기. random_state에 대한 숫자를 지정하여 각 실행의 결과가 동일하도록 한다.
melbourne_model = DecisionTreeREgressor(random_state = 1)

# model fit 하기
melbourne_model.fit(X, y)

No module named 'sklearn'에러가 지속적으로 발생해서 내일 다시 시도해야 할 것 같다. 아마도 파이썬 환경과 쥬피터 노트북 설치 환경 차이에 기인하는 것 같은데 내일 다시 해결책을 찾아서 해결한 다음 남은 코딩을 마무리 하도록 해야겠다.

profile
데이터 사이언티스트가 되고 싶은 사람!!!

0개의 댓글