Intro to Machine Learning

지현구·2022년 7월 10일

데이터 사이언티스를 꿈꾸며!!!

목록 보기

2/3

데이터 사이언스 수업을 들으면서 파이썬 및 데이터 사이언스 관련 정보를 얻기 위해 다양한 사이트를 방문했다. 그중 가장 흥미로운 사이트는 바로 kaggle이다. 캐글은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 이 플랫폼을 통해 데이터 사이언스 및 머신 러닝의 역량을 강화할 수도 있고, 혀냊 해당 분야의 트렌드를 확인할 수 있으며 또한 기본적인 강의도 제공하기 때문에 상당히 흥미롭게 느껴졌다.

케글에서 제공하는 다양한 수업 중 Intro to machine learning를 직접 따라서 코딩해보기로 했다.

import pandas as pd

# 데이터 접근을 쉽게하기 위해 파일 경로를 지정 
melbourne_file_path = '../kaggle_data/melb_data.csv'

# 데이터 불러오기 및 저장
melbourne_data = pd.read_csv(melbourne_file_path)

# 멜버근의 부동산 데이터에 대한 요약된 자료를 출력
melbourne_data.describe()

print(len(melbourne_data.columns))
print(melbourne_data.columns)

# dropna 함수를 이용해 결측값이 있는 행을 제거

melbourne_data = melbourne_data.dropna(axis=0)
melbourne_data.describe() # 첫 번째 데이터와 비교해 어느 정도 데이터를 제거했는지 확인할 수 있다.

# dot-notation을 통해 predection target을 선택하기
# y에 집 가격 데이터를 저장

y = melbourne_data.Price
y

# 집 가격을 결정지을 특성(features) 선택하기
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

# 해당 값들을 x에 저장
X = melbourne_data[melbourne_features]
X.describe()

X.head()

from sklearn.tree import DecisionTreeRegressor

# 모델 정의하기. random_state에 대한 숫자를 지정하여 각 실행의 결과가 동일하도록 한다.
melbourne_model = DecisionTreeREgressor(random_state = 1)

# model fit 하기
melbourne_model.fit(X, y)

No module named 'sklearn'에러가 지속적으로 발생해서 내일 다시 시도해야 할 것 같다. 아마도 파이썬 환경과 쥬피터 노트북 설치 환경 차이에 기인하는 것 같은데 내일 다시 해결책을 찾아서 해결한 다음 남은 코딩을 마무리 하도록 해야겠다.

지현구

데이터 사이언티스트가 되고 싶은 사람!!!

이전 포스트

데이터 사이언티스트란?

다음 포스트

Intro to Machine Learning

데이터 사이언티스를 꿈꾸며!!!

데이터 사이언티스트란?

데이터 스쿨 2개월차 후기

0개의 댓글