uc 어바인
캐글 데이터셋
아마존 aws 데이터셋
카네기멜론 대학교 통계학과 데이터셋
dataportals
opendatamonitor
quandl
위키백과 머신러닝 데이터셋
quara.com
데이터셋 서브레딧
깃헙 유명 데이터셋
# 데이터 가져오기
!git clone https://github.com/rickiepark/handson-ml
%cd handson-ml
import pandas as pd
data_path = './datasets/housing/housing.csv'
housing = pd.read_csv(data_path)
housing.head() # 상위 5개 행 출력
housing.info() # 전체 행수, 각 컬럼의 데이터 타입과 널값 유무
total_bedrooms null값 있음
ocean_proximity 수치형 컬럼 아님
# 범주형 변수 값 확인
housing["ocean_proximity"].value_counts()