[Excel마스터] 세계 인구 데이터 분석 (피벗테이블과 기본 시각화)

Hyejin Beck·2023년 12월 17일
0

Excel & Sheet

목록 보기
5/22
post-thumbnail

미리보기


1. 전처리

1-1. 합치기(vlookup)

국가별 년도 인구 수 데이터 + 2개 데이터 병합하기

  • 선진국/개발도상국 여부 데이터
  • 나라별 속한 대륙명 데이터


덧붙히려는 기본데이터에
=vlookup(기준셀, $찾는$범위, 몇번째열, FALSE) 으로 찾는 값 붙히기
단, 찾으려는 데이터가 1열에 있어야 합니다.

1-2. 컬럼 재정렬(쿼리편집기)

가로형 컬럼 데이터
년도 | 2019년 | 2020년 | 2021년 | 2022년 .... 으로 데이터가 정렬되었다면,

세로형 컬럼 으로 (하나의 컬럼)으로 정리해줍니다.
년도
2019년
2019년
2022년
2020년
...

데이터 -> 데이터 가져오기(파워 커리) -> 파워커리 편집기 시작

해당 워크 시트 클릭

컬럼변경할 부분만 선택 -> 변환 -> 열 피벗 해제 클릭

이제 특성에는 년도가, 값에는 그 년도에 해당되는 인구수가 나오게 됩니다.
홈 -> 닫기 및 로드

이러한 형식을 타이디형식 (tidy) 이라고 합니다.

2. 시각화

2-1. 피벗테이블

삽입 -> 피벗테이블

2-2. 2022년 국가별 인구 분포

2022년에 한하여 확인해야하니, 년도(Year)를 필터에 추가
국가별 (Country/Territory)를 왼쪽 행에 추가
인구 수 (Pop)을 오른쪽 값에 추가
내림차순 정렬

총합계 제거해야 count를 할 수 있습니다.
피벗테이블 디자인 -> 총합계 해제

histogram

분포(히스토그램)에 대한 시각화를 하기 위해선
인구수(pop) 데이터를 피벗테이블바로 바깥에 복붙해줍니다.

Ctra+A로 바깥에 복붙한 데이터 전체 선택 하여 히스토그램 차트를 만들어 줍니다.
삽입 -> bar차트그림

대부분의 나라의 인구수가 가장 적은구간에 몰려있습니다.

boxplot

쩜으로 된게 모두 이상치입니다.
최대값 수치를 3억으로 수치를 변형해보겠습니다.
(미국 인구 수 기준(약2억2천)+@ )

수치를 클릭 한뒤, 차트영역 서식에서 최대값을 3억으로 변경해줍니다.

참고로 2022년에 한해서 봐야 되기 때문에
year에 2022년 클릭해줘야 합니다.

2-3. 선진/개발도상국 년도별 인구 분포

선진국 DC
개발도상국 LDC 에 따른 년도별 인구 분포

년도별 | DC | LDC | 인구 총합계 형식으로 피벗테이블 만들어줍니다.
역시나 총합계는 제외시켜줍니다.

시각화를 위한 값 복사붙혀넣기

2-4. 2022년 선진/개발도상국 국가별 인구

위의 피벗테이블 복붙 후 수정

2022년 필터위한 Year(년도) > 필터로 이동

그리고 2022년 선택하여 확인합니다.

보기 편하게 내림차순 정렬

인구가 많은 중국,인도가 LDC 개발도상국에 속하기 때문에
개발도상국 인구가 선진국 인구에 비해 훨씬 많은게 이해가 갑니다.

2-5. 대륙별/년도별 인구 추이

columns 열에 대륙continent로 변경해서 피벗테이블

꺾은선 차트로 시각화 합니다.

Asia와 Africa의 과거 인구 성장이 가파랐던 점 등을 알 수 있습니다.

2-6. 대륙별/년도별 인구 신장률 추이

역시나 부분합(총합계) 제외시켜줍니다.

테이블 형식으로 변경

모든항목 반복으로 변경

신장률 구해주기위해, 값 복사 붙혀넣기

전년대비 신장률

전년대비 인구수 신장률 구하기 (올해인구수-작년인구수)/작년인구수
그리고 백분율 % 클릭해서 퍼센트로 변경

단, 1970년도는 전년도 데이터가 없기 때문에 if문으로 서식을 만들어 줘야 합니다.

만약, 전년기준과 올해기준이 같다면 신장률 구하고, 아니라면 빈 칸
1970년도와 년도외 데이터가 윗칸에 있다면 빈칸으로 나오게 됩니다.

profile
데이터기반 스토리텔링을 통해 인사이트를 얻습니다.

0개의 댓글

관련 채용 정보