1. Data 개요
- 데이터의 수집하기 전 어떻게 접근할 것인지 먼저 논의한다.
- 싱크홀에 대한 데이터를 어디서 제공하는지 먼저 파악한 뒤, 변수를 어떻게 설정할 것인지 논의한다.
- 논의 끝에 싱크홀의 발생여부에 따른 변수들의 상관성이 낮으므로 싱크홀 규모에 따른 변수들간의 어떠한 상관성이 있는지로 바꾼다.
- 전문가의 의견 및 논문을 참고하여 싱크홀에 영향을 주는 변수들의 선택에 있어서 전문성을 추가하여 힘을 싣는다.
1.0 데이터의 선정
- 논문을 참고하여 싱크홀에 영향을 주는 데이터가 무엇이 있으며 어떤 것을 선택할 지 고려한다.
- 1 논문1을 선정하였으며 분석 결과중 평균을 기준으로 반올림하여 4.0이 넘는 변수들을 선택한다.
[그림 1]
- 그림 1을 참고하여 데이터들의 후보를 선택한다.
1.1 데이터들의 출처
- 논문을 참고하여 싱크홀에 대한 데이터를 공공데이터 포탈을 이용해 무엇을 제공 받을 수 있는지 확인한다,
- 계절
- 싱크홀 발생이유
- 근처 지하철 노선과의 거리(km) : 지하철이 지나갈 때마다 지속적으로 지반에 영향을 주는 것을 고려한다.
- 지반을 이루고 있는 암석의 종류
- 최근 공사가 일어난 지점과의 거리(km)
- 최근 공사가 일어난 곳과의 일수 차이(day)
1.2 데이터 소개
1.2.0 Y(싱크홀 규모) - 연속형 변수
- 폭, 연장, 깊이들을 수치화 된 싱크홀 규모를 나타낸다.
1.2.1 X1(계절) - 비연속형 독립변수
2019 입춘,입하,입추,입동 기준으로 나누었다.
- 2.4 ~ 5.5 : 봄
- 5.6 ~ 8.7 : 여름
- 8.8 ~ 11.7 : 가을
- 11.8 ~ 2.3 : 겨울
1.2.2 X2(싱크홀 발생 이유) - 비연속형 독립변수
가장 흔히 발생하는 이유 중 크게 3가지와 나머지 이유들을 기타로 묶어서 진행한다.
- 상수도 : 상수관 혹은 상수도라는 단어가 들어간 data
- 하수도 : 하수관 혹은 하수도라는 단어가 들어간 data
- 굴착공사중 : 굴착복구 혹은 굴착이라는 단어가 들어간 data
- 기타 : 열수송관 등 나머지에 대해서 기타로 분류한다.
상수도라는 단어가 들어간 data만 추출하는 언어
grep(c("상수","상수관"),text)
1.2.3 X3(지하철과 거리) - 연속형 독립변수
주어진 위치데이터를 구글어스로 사용하여 위도경도로 환산한 뒤, 네이버에서 주어지는 지하철 노선과의 직선거리를 계산한다.
1.2.4 X4(지반의 종류) - 비연속형 독립변수
지질 정보서비스 시스템에서 제공되는 해당지역의 지반을 이루고 있는 지질의 종류를 파악한다.
1.2.5 X5,X6(경과시간, 공사거리) - 연속형 변수
- 공사가 시작된 날짜를 수치형 변수로 치환한다.
- 공사가 시작된 장소와 싱크홀이 발생한 거리를 직선거리로 계산한다.
Reference
- Lee, Kyung-Su and Kim, Tae-Hyeong and Kim, Tai-Hoon and Park, Sang-hyuk, (2016). Analysis of risk factor for sinkhole formation by using Delphi.The Journal of the Korea Contents Association.
- www.data.go.kr
- data.seoul.go.kr
- map.naver.com,
- google.com
mgeo.kigam.re.kr(현재는 서비스가 종료되었다.)
- cis.seoul.go.kr