
CCTV_Seoul.head()

CCTV_Seoul.tail()

CCTV_Seoul.sort_values(by='소계', ascending=True).head()

CCTV_Seoul.sort_values(by='소계', ascending=False).head()

CCTV_Seoul['최근 증가율'] = (
(CCTV_Seoul['2016년'] + CCTV_Seoul['2015년'] + CCTV_Seoul['2014년']) / CCTV_Seoul['2013년도 이전'] * 100
)
CCTV_Seoul.sort_values(by='최근 증가율', ascending=False).head()

pop_Seoul.head()

pop_Seoul.tail()

pop_Seoul.drop([0], axis=0, inplace=True)
pop_Seoul.head()

유일한 값을 가져온다. (중복 X)
pop_Seoul['구별'].unique()

pop_Seoul['외국인비율'] = pop_Seoul['외국인'] / pop_Seoul['인구수'] * 100
pop_Seoul['고령자비율'] = pop_Seoul['고령자'] / pop_Seoul['인구수'] * 100
pop_Seoul.head()

- pd.concat()
- pd.merge()
- pd.join()
- 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
- 기준이 되는 컬림이나 인덱스를 키값이라고 한다.
- 기준이 되는 키 값은 두 데이터 프레임에 모두 포함 되어 있어야한다.
pd.merge(left,right,on="key")

pd.merge(left,right,how="left",on="key")

pd.merge(left,right,how="right",on="key")

pd.merge(left,right,how="outer",on="key")

data_result = pd.merge(CCTV_Seoul,pop_Seoul,on="구별")
data_result.head()

del data_result['2013년도 이전']
del data_result['2014년']
data_result.head()

data_result.drop(["2015년", "2016년"], axis=1, inplace=True)
data_result.head(1)

- set_index()
- 선택한 컬럼을 데이터 프레임의 인덱스로 지정
data_result.set_index("구별", inplace=True)
data_result.head()

- corr() : correlation의 약자
- 상관계수가 0.2 이상인 데이터를 비교
data_result.corr()

data_result['CCTV비율'] = data_result['소계'] / data_result['인구수']
data_result['CCTV비율'] = data_result['CCTV비율'] * 100
data_result.head()
