AICE - 데이터 이해1

이강민·2023년 8월 6일
0

AICE

목록 보기
6/18
post-thumbnail

지표로 데이터 탐색

일변량 비시각화 탐색하기

데이터프레임을 describe() 함수로 요약 통계량 확인 할 수 있다.
describe(include = 'all') 매개변수를 포함시키면 데이터 수, 최빈값, 칼럼 내 최빈값의 개수 등 문자형 칼럼에 대한 정보를 확인할 수 있다.

다변량 비시각화 탐색

상관계수 확인하기

  • -1 ~ +1 사이의 값을 가지며 -1에 가까울 수록 음의 상관관계, +1에 가까울 수록 양의 상관관계를 의미한다. 0에 가까울 수 록 상관관계가 없다.
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Clean_Dataset.csv', encoding='cp949')
df.drop([df.columns[0]], axis = 1, inplace=True)
# 상관관계 확인을 위한 함수
df.corr()

ECONOMY석의 남은 일자와 가격의 상관관계

#class의 속성이 Economy 인 것만 저장
df_eco = df[df['class'] == 'Economy']
df_eco.corr()

남은 일자와 항공권 가격은 음의 상관관계가 성립된다.
days_left의 수가 줄어들수록 price는 높아진다.
즉 Economy항공권은 빨리 구매 할 수록 가격이 낮아지고, 출발 일자에 가까울수록 가격이 높아지는 것을 알 수 있다.

교차표 확인하기

교차표는 두 범주형 데이터(문자열의 데이터)의 상관관계를 확인하는 방법이다.
출발 도시별로 어느 시간에 비행기 이륙이 많은지 확인하는 코드는 다음과 같다.

pd.crosstab(df['source_city'], df['departure_time'])


위표에서는 아침에 비행 편수가 많은지, 어떤 도시에 비해 오후에 비행 편수가 적은지 확인 할 수 있다.

profile
NullpointException

0개의 댓글