[Excel마스터] 미국 도시별 집값 데이터 분석 (수치형의 상관분석)

Hyejin Beck·2023년 12월 22일
0

Excel & Sheet

목록 보기
6/22

1. 데이터 확인

date 날짜
street 도로명 주소
city 도시
statezip 우편코드
country 나라
price 집 값
bedrooms 침실 수
bathrooms 욕실 수
sqft_living 거실 넓이
sqft_lot 주차장 넓이
floors 층 수
waterfront 분수대 여부
view 뷰 점수 (0~4점 : 4점이 가장 좋은 뷰)
condition 집 상태 점수 (1~5점)
sqft_above 2층 넓이
sqft_basement 지하실 넓이
yr_built 지어진 년도
yr_renovated 리모델링 년도 (0은 하지 않음을 뜻함)

2. 전처리

컬럼 추가

현재(year)로부터 지어진 년도(yr_built)가 얼마나 지났는지 년식 파악하는 컬럼 추가

  • 현재 년도 추출 date셀

  • 지어진 년도 추출 yr_built셀

  • 년식을 나타내는 새 컬럼 생성 =yr_built셀 - date셀 = year

  • 리모델링 여부 조건문 추가된 새 컬럼 생성: 리모델링을 했다면 (yr_renovated가 0이 아니라면) =if(yr_renovated셀 < >0, 현재년도 year셀 - 리모델링년도 yr_renovated셀,0

=if(A <> 0 는 A가 0이 아니라면
=if(A <> 0 , True일때 , False 일때)




3. 기본분석(피벗테이블,시각화)

도시별 평균 집값

  1. 행 (city ), 값 (price)
  2. 값 price를 평균으로
  3. 정렬은 내림차순 (셀 하나 오른쪽 클릭)
  4. 총합계 해제 (피벗테이블도구 디자인 -> 총합계)
  5. 데이터 분포 파악하기 (평균 값복사해서 바로 오른쪽 붙혀넣은 뒤 그 데이터 기준으로 차트 생성 -> 히스토그램, 박스플랏)


거실 크기별 평균 집값

  1. 행 (sqft_livint) , 값 (price)
    (값 price를 평균으로 + 정렬 내림차순 + 총합계 해제 )

2. 행을 그룹화 (데이터가 텍스트형식으로 되어있으면 되지 않습니다)
3. 차트 시각화
: 거실 크기가 클 수록, 평균 집값도 높은 것 같습니다.


도시별 층별에 따른 평균 집값

  1. 행(statezip), 값 (price)
    그리고 열 (floor)
    우편코드로 크게 분류된 집의 층별 평균 집값
  2. 데이터 분포 (값 복사붙혀넣기 -> 박스플롯 차트)

4. 상관분석(상관계수,시각화)

  1. 데이터분석 -> 상관분석 Correlation
  2. Input range (입력범위) 는 수치열 컬럼들만 선택
    Labels in First Low (첫째 행 이름표 사용)
    New Workbook 새 창으로

문자열이 들어있는경우, 빈 칸일경우 (*등으로 집계시) , 셀 서식이 숫자 가 아닐경우 생성되지 않습니다.
본인은 계속 에러가 났었는데, 값 복사붙혀넣기 해서 새로운 시트로 추가한 뒤 진행하였습니다.

  1. 상관분석 결과
  • 대각선의 1값들만 삭제
  • 위에있는 컬럼명 아래로
  • 셀서식 : 소수점자리 3번째 자리까지만 표기
  • 셀 칸 보기좋게 비율 조절
  • 숫자칸만 드래그 ->조건부 서식 -> 새 규칙
  • 숫자를 기준으로 색으로 나눕니다.
    (최대 1 ~ 최소 -1)




5. 상관분석 결과

양의 상관관계가 클 수록 빨갛고,
음의 상관관계가 클 수록 푸르게 설정했습니다.

시각화 결과
sqft_living(거실넓이)가 클 수록 빨간, 양의 상관관계를 가집니다.
yr_renovated(리모델링년도)가 클 수록 파란, 음의 상관관계를 가집니다.

리모델링년도가 최신일수록(클수록) 집값이 떨어지는 데이터가 확인됩니다.

profile
데이터기반 스토리텔링을 통해 인사이트를 얻습니다.

0개의 댓글

관련 채용 정보