프로젝트 플로우
- 주제 선정 : 국내 휴양림이 어느 지역에 가장 많을까요?
- 데이터 수집 : 공공데이터포털에서 전국 휴양림 표준 데이터를 다운로드
- 데이터 가공 : 엑셀로 불필요한 행과 열을 제거하고, 분석할 변수를 정의
- 데이터 분석 : 지역별 분포를 비교하기 위해 지역 데이터를 갖고 있는 변수를 빈도 분석 / 빈도를 막대 그래프로 시각화하여 지역별 휴양림 분포를 시각적으로 확인
- 결론 도출 : 경기도에 가장 많음!
데이터 수집
[공공데이터포털 홈페이지]
https://www.data.go.kr/data/15013111/standard.do
전국휴양림표준데이터의 xls 데이터를 다운로드합니다.
데이터 가공
엑셀로 데이터 전처리하기
- 비어있는 1행 전체 제거
- 입장료, 주요시설명, 관리기관명, 휴양림전화번호, 홈페이지 주소, 위도, 경도, 데이터 기준 일자 는 분석에 필요없으므로 제거
- G열의 소재지도로명주소 전처리
'시', '도'를 분리한 새로운 컬럼명 생성
H열부터 M열까지 블록 설정한 후 마우스 오른쪽 버튼을 클릭하여 [삽입]을 선택
- G를 클릭하고 엑셀 메뉴에서 [데이터] 탭으로 이동하여 텍스트 나누기
- 1단계 - 구분 기호로 분리됨
2단계 - 탭과 공백 선택 후 다음
3단계 - 마침
- H열부터 M열은 필요없으므로 모두 삭제 후 명칭을 [소재지_시도명]으로 변경
- 휴양림 면적 / 수용인원수를 숫자로 변환
- 저장!
데이터 분석
빈도분석하기
- freq 함수로 city 변수의 빈도와 분포율을 확인
library(descr)
freq(froest_example_data$city, plot = T, main = 'city')
- table 함수로 빈도를 도출한 후 barplot()함수로 막대 그래프 그리기
city_table <- table(forest_example_data$city)
city_table
barplot(city_table)
- 휴양림이 가장 많은 지역순으로 정렬하기 위해 count()함수로 시도별 휴양림 개수를 구한 후 arrange()함수로 내림차순으로 정렬
library(dplyr)
count(forest_example_data, city) %>% arrange(desc(n))
휴양림이 많은 지역 순으로 내림차순 정렬되어 가장 많은 지역은 경기도, 두 번째는 충청북도임을 쉽게 확인할 수 있음
- count 함수와 arrange(desc())함수 사용하여 빈도 확인하고 내림차순 정렬
count(forest_example_data, city_new) %>% arrange(desc(n))
휴양림이 가장 많은 지역은 경기도, 두 번째는 충청북도임을 알 수 있음