지역별 국내 휴양림 분포 비교하기 [혼자 공부하는 R 데이터 분석 6주차]

김서윤·2025년 8월 22일
0
post-thumbnail

프로젝트 플로우

  • 주제 선정 : 국내 휴양림이 어느 지역에 가장 많을까요?
  • 데이터 수집 : 공공데이터포털에서 전국 휴양림 표준 데이터를 다운로드
  • 데이터 가공 : 엑셀로 불필요한 행과 열을 제거하고, 분석할 변수를 정의
  • 데이터 분석 : 지역별 분포를 비교하기 위해 지역 데이터를 갖고 있는 변수를 빈도 분석 / 빈도를 막대 그래프로 시각화하여 지역별 휴양림 분포를 시각적으로 확인
  • 결론 도출 : 경기도에 가장 많음!

데이터 수집

[공공데이터포털 홈페이지]
https://www.data.go.kr/data/15013111/standard.do

전국휴양림표준데이터의 xls 데이터를 다운로드합니다.

데이터 가공

엑셀로 데이터 전처리하기

  1. 비어있는 1행 전체 제거
  2. 입장료, 주요시설명, 관리기관명, 휴양림전화번호, 홈페이지 주소, 위도, 경도, 데이터 기준 일자 는 분석에 필요없으므로 제거
  3. G열의 소재지도로명주소 전처리
    '시', '도'를 분리한 새로운 컬럼명 생성
    H열부터 M열까지 블록 설정한 후 마우스 오른쪽 버튼을 클릭하여 [삽입]을 선택
  4. G를 클릭하고 엑셀 메뉴에서 [데이터] 탭으로 이동하여 텍스트 나누기
  5. 1단계 - 구분 기호로 분리됨
    2단계 - 탭과 공백 선택 후 다음
    3단계 - 마침
  6. H열부터 M열은 필요없으므로 모두 삭제 후 명칭을 [소재지_시도명]으로 변경
  7. 휴양림 면적 / 수용인원수를 숫자로 변환
  8. 저장!

데이터 분석

빈도분석하기

  • freq 함수로 city 변수의 빈도와 분포율을 확인
library(descr)
freq(froest_example_data$city, plot = T, main = 'city')
  • table 함수로 빈도를 도출한 후 barplot()함수로 막대 그래프 그리기
city_table <- table(forest_example_data$city)
city_table
barplot(city_table)
  • 휴양림이 가장 많은 지역순으로 정렬하기 위해 count()함수로 시도별 휴양림 개수를 구한 후 arrange()함수로 내림차순으로 정렬
library(dplyr)
count(forest_example_data, city) %>% arrange(desc(n))

휴양림이 많은 지역 순으로 내림차순 정렬되어 가장 많은 지역은 경기도, 두 번째는 충청북도임을 쉽게 확인할 수 있음

  • count 함수와 arrange(desc())함수 사용하여 빈도 확인하고 내림차순 정렬
count(forest_example_data, city_new) %>% arrange(desc(n))

휴양림이 가장 많은 지역은 경기도, 두 번째는 충청북도임을 알 수 있음

profile
데이터 분석 취업 준비중

0개의 댓글