Decision Tree

2개 이상의 침실이 있는가를 기준으로 2가지 카테고리로 나뉜다.
데이터를 통해서 패턴들을 얻어내는 과정을 fitting or training이라고 한다.
모델이 fit하게 된 후에는, 새로운 데이터를 적용해보았을 때 예측된 값을 얻을 수 있을 것이다.
Improving the Decision Tree
더 깊은 트리를 통해서 더 많은 요소들을 얻어낼 수 있다.
맨 밑의 예측을 결정하는 노드들을 leaf라고 한다.
Using pandas
pandas library의 가장 중요한 점은 데이터 프레임이다.
데이터프레임은 여러 타입의 데이터들을 테이블의 형태로 나타내준다.(ex- excel)
https://www.kaggle.com/dansbecker/melbourne-housing-snapshot
호주 멜버른의 집 값 데이터를 먼저 다운로드 한다.
코드 작성(colab을 사용함)
먼저 드라이브 마운트를 한다.
from google.colab import drive
drive.mount('/gdrive',force_remount=True)
그 다음 pandas library를 추가해준다.
import pandas as pd
file_path에 csv파일위치를 저장하는데 zip파일로 저장을 해서 압축을 풀어주었다.
#zip파일 압축 풀어서 csv파일 저장하기
!unzip -qq "/gdrive/MyDrive/ItM/archive.zip"
file_path에 저장을 해주고 pandas library를 이용해서 테이블 형식으로 출력해주었다
# 파일 경로를 저장한다.
melb_file_path ='/content/melb_data.csv'
# 테이블로 나타내기
melb_data = pd.read_csv(melb_file_path)
melb_data.describe()
출력 결과

- colab과 kaggle을 연동하는 방법
!pip install kagglefrom google.colab import files files.upload()를 통해서 kaggle.json을 업로드 하면 된다.
참고 사이트 - https://kaggle-kr.tistory.com/21
- colab에서 learntools를 사용하고 싶다면?
!git clone https://github.com/Kaggle/learntools.git !mv learntools learntools_dir !mv learntools_dir/learntools learntools from learntools.deep_learning import decode_predictions참고 사이트 - https://www.kaggle.com/questions-and-answers/165757