date 날짜
street 도로명 주소
city 도시
statezip 우편코드
country 나라
price
집 값
bedrooms 침실 수
bathrooms 욕실 수
sqft_living 거실 넓이
sqft_lot 주차장 넓이
floors 층 수
waterfront 분수대 여부
view 뷰 점수 (0~4점 : 4점이 가장 좋은 뷰)
condition 집 상태 점수 (1~5점)
sqft_above 2층 넓이
sqft_basement 지하실 넓이
yr_built 지어진 년도
yr_renovated 리모델링 년도 (0은 하지 않음을 뜻함)
현재(year)로부터 지어진 년도(yr_built)가 얼마나 지났는지 년식 파악하는 컬럼 추가
현재 년도 추출 date셀
지어진 년도 추출 yr_built셀
년식을 나타내는 새 컬럼 생성 =yr_built셀
- date셀
= year
리모델링 여부 조건문 추가된 새 컬럼 생성: 리모델링을 했다면 (yr_renovated가 0이 아니라면) =if(yr_renovated셀 < >0, 현재년도 year셀 - 리모델링년도 yr_renovated셀,0
=if(A <> 0
는 A가 0이 아니라면
=if(A <> 0 , True일때 , False 일때)
2. 행을 그룹화 (데이터가 텍스트형식으로 되어있으면 되지 않습니다)
3. 차트 시각화
: 거실 크기가 클 수록, 평균 집값도 높은 것 같습니다.
문자열이 들어있는경우, 빈 칸일경우 (
*
등으로 집계시) , 셀 서식이 숫자 가 아닐경우 생성되지 않습니다.
본인은 계속 에러가 났었는데, 값 복사붙혀넣기 해서 새로운 시트로 추가한 뒤 진행하였습니다.
조건부 서식
-> 새 규칙
양의 상관관계가 클 수록 빨갛고,
음의 상관관계가 클 수록 푸르게 설정했습니다.
시각화 결과
sqft_living(거실넓이)가 클 수록 빨간, 양의 상관관계를 가집니다.
yr_renovated(리모델링년도)가 클 수록 파란, 음의 상관관계를 가집니다.
리모델링년도가 최신일수록(클수록) 집값이 떨어지는 데이터가 확인됩니다.