[TIL] day17

Hyebin·2021년 12월 29일
0

TIL

목록 보기
18/47

TIL

  • EDA

탐색적 데이터 분석

  1. 분석의 목적과 변수 확인
  2. 데이터 전체적으로 살펴보기
  3. 데이터의 개별속성 파악하기

.describe(): 데이터 전체 정보를 얻는 함수
.corr(): 상관계수 확인
.isnull(): 결측치 확인

catplot 활용

# catplot
sns.catplot(x='Pclass', y='Survived', hue='Sex', kind = 'point', data=titanic_df)
plt.show()

👉복합변수 plot 그릴때는 catplot이 활용도가 높음

# kde 이런식으로 그리는 방법도o
titanic_df['Age'][titanic_df.Pclass==1].plot(kind='kde')
titanic_df['Age'][titanic_df.Pclass==2].plot(kind='kde')
titanic_df['Age'][titanic_df.Pclass==3].plot(kind='kde')

plt.legend(['1st class', '2nd class', '3rd class'])

plt.show()

Correlation is NOT Causation
상관성과 인과성 구분하기!!

  • 상관성: A↑, B↑ | 경향성을 나타내는 수치
  • 인과성: A -> B | 종속관계가 있는 경우를 말함

mission

Kaggle Airline Passenger Satisfaction dataset 사용

Class별 Satisfication

## Class별 만족/불만족
sns.catplot(x='Class', col='satisfaction',kind='count',data=airline)
plt.show()

Class별로 살펴보았을떄, Eco Class가 상대적으로 불만족이 높게 나오고 Business Class는 상대적으로 만족도가 높다.

#internal service#external serviceBusiness Class
위탁수하물 서비스와 Inflight service의 만족도가 가장 높음

Eco Class
1.Online boarding과 예약 과정이 쉽지않은 것이 불만족의 원인 중 하나로 추측
2.Online boarding에서 Class간의 만족도 차이가 크게 나타남

Eco Plus Class
모든 항목에서 평균이 가장 낮음
(Eco Class와의 가격차이만큼의 가치를 얻지 못해서 그러는것이 아닌가.. 하는 추측)

공통적으로 Ease of Online booking, Gate location의 평균이 낮은것을 확인할 수 있는데, 온라인 예약의 어려움과 게이트 위치가 서비스 불만족의 이유 중 하나라고 추측된다.


Satisfaction & Type of Travel

sns.catplot(x='Type of Travel', col='satisfaction', kind='count', data=airline)
plt.show()

여행 목적별로 개인여행일 경우의 불만족이 크게 나타나는 것을 알 수 있다.
(집에서 출발한 그 순간부터 여행이라고 인지하기 때문에 비행기 서비스 또한 여행의 일부분으로 받아들여 기준이 더 엄격해지는게 아닌지..)


🤔Class별 서비스 만족도를 파악할때, 어떤 서비스가 만족도에 영향을 주는지 파악하기위해서 mean말고 확인해야할 부분이 더 있을까?

🤔각 서비스마다 Class별로 파이차트를 그리는 방식의 시각화를 생각했었는데, 이러면 파이차트가 너무 많아질것 같기도하고 (거의 12개) 평균을 낸 데이터라 파이차트가 적절한지.. 이런 경우 적절한 시각화방법이 어떤게 있을까?

좀 더 생각해보기이

profile
공부중입니다 :D

0개의 댓글

관련 채용 정보