데브코스 4주차 - 3 EDA

정강훈·2021년 12월 30일
0

데브코스 4주차 3번째 강의

EDA에 대해 알아보고 실습하는 시간을 가졌다.

EDA란?
데이터 그 자체만으로부터 인사이트를 얻어내는 접근법으로

다음과 같은 과정으로 진행된다.
1. 분석의 목적과 변수 확인
2. 데이터 전체적으로 확인 (상관관계, 결측값, 데이터 사이즈 등)
3. 데이터의 개별 속성 파악

실습에서는 유명한 캐글의 타이타닉 데이터로 생존률과 상관관계가 있는 다른변수들을 수치로 확인해 보았다.

개인 과제

개인 과제로 Kaggle의 데이터 셋 중 유의미한 Feature를 3개 이상 찾고 이를 시각화 하는 과제가 나왔다.

나는 Kaggle의 아보카도 데이터셋을 사용하기로 했다.
https://www.kaggle.com/neuromusic/avocado-prices

처음 데이터 셋을 불러오는 부분이다.

Date - 날짜
AveragePrice - 평균 가격
Total Volume - 총 판매량
4046, 4225, 4770은 각각의 숫자에 해당되는 아보카도들의 판매량이다.
Total Bags - 데이터 셋 설명에 나와있지 않지만, 아마 그 해 의 수확량 같다.
Small Large XLarge는 사이즈에 따른 수확량 같다.
type - 2가지 값으로 유기농인지, 재래식인지를 구분
year - 수확 연도
region - 수확 지역


변수들에 결측값은 없었고, 타입도 예상한 것과 같았다.

다음은 변수들의 상관계수 확인이다.

여기서도 대충 예상이 되는 상관계수들이 나왔다.

나의 궁금점은 판매지역과 타입에 따른 총판매량과 평균가격이 궁금하였다.

1. 판매지역과 총판매량

그래서 sklearn의 LabelEncoder를 사용하여 생산지역과 타입을 라벨인코딩 해주었다.

그 후 지역에 따른 총 판매량의 평균값의 최대값과 최솟값을 비교해 보니 큰 차이가 났다.
그래서 이 둘은 상관관계가 있을걸로 예상했다.

평균가격이라는 것을 생각했을 때 유의미한 차이를 보였다.
둘의 상관관계가 있음을 확인했다.

2. 아보카도 타입과 평균가격

수치와 그래프를 통해 확인해보았다.

그래프로도 평균가격의 차이가 보였다.
유기농이 붙으면 가격이 비싸지는것은 미국도 우리나라와 같았다.

3. 아보카도 타입과 총 판매량

유기농 생산이 총판매량도 압도적으로 많았다.

다음과 같은 과정으로 EDA 실습을 해보았다.
상관관계를 찾는 과정이 흥미로웠다.

0개의 댓글