[캐글] Introduction to Machine Learning

조은지·2021년 4월 24일

How Models Work

Decision Tree

2개 이상의 침실이 있는가를 기준으로 2가지 카테고리로 나뉜다.
데이터를 통해서 패턴들을 얻어내는 과정을 fitting or training이라고 한다.

모델이 fit하게 된 후에는, 새로운 데이터를 적용해보았을 때 예측된 값을 얻을 수 있을 것이다.

Improving the Decision Tree
더 깊은 트리를 통해서 더 많은 요소들을 얻어낼 수 있다.

맨 밑의 예측을 결정하는 노드들을 leaf라고 한다.

Basic Data Exploration

Using pandas
pandas library의 가장 중요한 점은 데이터 프레임이다.
데이터프레임은 여러 타입의 데이터들을 테이블의 형태로 나타내준다.(ex- excel)

  1. https://www.kaggle.com/dansbecker/melbourne-housing-snapshot
    호주 멜버른의 집 값 데이터를 먼저 다운로드 한다.

  2. 코드 작성(colab을 사용함)
    먼저 드라이브 마운트를 한다.

from google.colab import drive
drive.mount('/gdrive',force_remount=True)

그 다음 pandas library를 추가해준다.

import pandas as pd

file_path에 csv파일위치를 저장하는데 zip파일로 저장을 해서 압축을 풀어주었다.

#zip파일 압축 풀어서 csv파일 저장하기 
!unzip -qq "/gdrive/MyDrive/ItM/archive.zip"

file_path에 저장을 해주고 pandas library를 이용해서 테이블 형식으로 출력해주었다

# 파일 경로를 저장한다.
melb_file_path ='/content/melb_data.csv'
# 테이블로 나타내기 
melb_data = pd.read_csv(melb_file_path)

melb_data.describe()

출력 결과

  • colab과 kaggle을 연동하는 방법
!pip install kaggle
from google.colab import files
files.upload()

를 통해서 kaggle.json을 업로드 하면 된다.
참고 사이트 - https://kaggle-kr.tistory.com/21

  • colab에서 learntools를 사용하고 싶다면?
!git clone https://github.com/Kaggle/learntools.git
!mv learntools learntools_dir
!mv learntools_dir/learntools learntools
from learntools.deep_learning import decode_predictions

참고 사이트 - https://www.kaggle.com/questions-and-answers/165757

0개의 댓글