지역별 국내 휴양림 분포 비교하기 [혼자 공부하는 R 데이터 분석 6주차]

김서윤·2025년 8월 22일

혼자공부하는R데이터분석

목록 보기

6/6

주제 선정 : 국내 휴양림이 어느 지역에 가장 많을까요?
데이터 수집 : 공공데이터포털에서 전국 휴양림 표준 데이터를 다운로드
데이터 가공 : 엑셀로 불필요한 행과 열을 제거하고, 분석할 변수를 정의
데이터 분석 : 지역별 분포를 비교하기 위해 지역 데이터를 갖고 있는 변수를 빈도 분석 / 빈도를 막대 그래프로 시각화하여 지역별 휴양림 분포를 시각적으로 확인
결론 도출 : 경기도에 가장 많음!

전국휴양림표준데이터의 xls 데이터를 다운로드합니다.

비어있는 1행 전체 제거
입장료, 주요시설명, 관리기관명, 휴양림전화번호, 홈페이지 주소, 위도, 경도, 데이터 기준 일자 는 분석에 필요없으므로 제거
G열의 소재지도로명주소 전처리
'시', '도'를 분리한 새로운 컬럼명 생성
H열부터 M열까지 블록 설정한 후 마우스 오른쪽 버튼을 클릭하여 [삽입]을 선택
G를 클릭하고 엑셀 메뉴에서 [데이터] 탭으로 이동하여 텍스트 나누기
1단계 - 구분 기호로 분리됨
2단계 - 탭과 공백 선택 후 다음
3단계 - 마침
H열부터 M열은 필요없으므로 모두 삭제 후 명칭을 [소재지_시도명]으로 변경
휴양림 면적 / 수용인원수를 숫자로 변환
저장!

library(descr)
freq(froest_example_data$city, plot = T, main = 'city')

city_table <- table(forest_example_data$city)
city_table
barplot(city_table)

library(dplyr)
count(forest_example_data, city) %>% arrange(desc(n))

휴양림이 많은 지역 순으로 내림차순 정렬되어 가장 많은 지역은 경기도, 두 번째는 충청북도임을 쉽게 확인할 수 있음

count(forest_example_data, city_new) %>% arrange(desc(n))

휴양림이 가장 많은 지역은 경기도, 두 번째는 충청북도임을 알 수 있음

데이터 분석 취업 준비중