데이터프레임을 describe() 함수로 요약 통계량 확인 할 수 있다.
describe(include = 'all') 매개변수를 포함시키면 데이터 수, 최빈값, 칼럼 내 최빈값의 개수 등 문자형 칼럼에 대한 정보를 확인할 수 있다.
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Clean_Dataset.csv', encoding='cp949')
df.drop([df.columns[0]], axis = 1, inplace=True)
# 상관관계 확인을 위한 함수
df.corr()
#class의 속성이 Economy 인 것만 저장
df_eco = df[df['class'] == 'Economy']
df_eco.corr()
남은 일자와 항공권 가격은 음의 상관관계가 성립된다.
days_left의 수가 줄어들수록 price는 높아진다.
즉 Economy항공권은 빨리 구매 할 수록 가격이 낮아지고, 출발 일자에 가까울수록 가격이 높아지는 것을 알 수 있다.
교차표는 두 범주형 데이터(문자열의 데이터)의 상관관계를 확인하는 방법이다.
출발 도시별로 어느 시간에 비행기 이륙이 많은지 확인하는 코드는 다음과 같다.
pd.crosstab(df['source_city'], df['departure_time'])
위표에서는 아침에 비행 편수가 많은지, 어떤 도시에 비해 오후에 비행 편수가 적은지 확인 할 수 있다.