프로젝트 3일차 TIL
배현경 튜터의 조언 요약
-
현업 파이프라인 운영:
- 데이터가 실시간으로 수집되고 수정되며, 이 데이터는 자동으로 Tableau 대시보드에 연결된다.
- 데이터 엔지니어팀은 이 대시보드를 모니터링하고 문제가 발생하면 즉각 수정한다.
- 데이터 전처리, 시각화 설계, 추가 아이디어 구상을 통해 데이터를 직관적으로 보여주는 것이 목표.
-
대시보드 설계 방향:
- 폐교율, 의치약대 유무, 위기 학교 수 등을 포함하여 사용자 중심의 지표 구조로 설계.
- 대학 설립 연도와 같은 추가적인 칼럼을 활용하면 통계적 인사이트 도출 가능성이 높음.
마스터 테이블 설계 방안
-
단일 소스 통합 방식:
- 각 데이터 테이블을 단일 마스터 테이블로 통합하여 하나의 큰 테이블에서 모든 분석을 수행.
- 장점: 데이터 접근이 용이하고, 단순한 분석 및 시각화에 유리.
- 단점: 테이블이 커질수록 속도가 느려지고, 메모리 사용이 증가함.
-
모듈화된 테이블 설계:
- 마스터 테이블을 주요 테마(예: 학교 정보, 인구 데이터, 충원률)별로 나누어 설계하고 필요할 때 조인하는 방식.
- 장점: 유지보수와 확장이 용이하고, 분석 주제에 맞는 데이터 조합이 가능.
- 단점: 조인 과정에서 성능 저하가 발생할 수 있으며, 데이터 일관성을 유지해야 함.
-
스타 스키마 구조:
- 중심이 되는 사실 테이블(입학 정원, 충원률 등)에 차원 테이블(학교, 지역 인구, 설립 연도 등)을 조인하여 설계.
- 장점: 분석 속도가 빠르고, 직관적인 데이터 모델링이 가능.
- 단점: 데이터 업데이트 시 복잡해질 수 있으며, 모든 관계를 고려해야 함.
예측 모델 정리
-
Prophet:
- 사용 사례: 시계열 예측에 특화된 모델로 계절성, 트렌드 변화를 반영하는 데 강점.
- 장점: 쉬운 구현과 빠른 예측 가능. 공휴일 등 외부 요인을 쉽게 추가할 수 있음.
- 단점: 복잡한 상관관계를 반영하기 어려움. 데이터의 노이즈에 민감.
-
Cox Regression:
- 사용 사례: 생존 분석 모델로서 학교의 위기 상태(폐교 가능성)를 예측하는 데 사용.
- 장점: 시간 변수의 영향 평가에 유용하며, 학교의 위기 발생 위험을 추정 가능.
- 단점: 복잡한 상호작용 변수를 반영하기 어려움. 직관적이지 않을 수 있음.
-
Random Forest:
- 사용 사례: 다양한 변수를 조합하여 대학교 충원률을 예측하는 데 유리.
- 장점: 비선형 관계를 잘 모델링하며, 변수의 중요도 평가 가능.
- 단점: 많은 데이터와 계산 리소스 필요. 해석이 어려울 수 있음.
-
Linear Regression:
- 사용 사례: 충원률과 인구 특성 간의 단순한 상관관계를 평가.
- 장점: 이해하기 쉬운 모델로 빠른 결과 도출 가능.
- 단점: 변수 간 상호작용이 고려되지 않으며, 비선형 관계를 반영하기 어려움.
-
XGBoost:
- 사용 사례: 고성능 예측을 위한 트리 기반의 앙상블 학습 모델.
- 장점: 높은 정확도를 보이며, 변수의 중요도를 명확히 확인 가능.
- 단점: 튜닝이 복잡하고 과적합 위험이 있음.
주요 개념 정리
- 폐교율: 일정 기간 동안 학교가 문을 닫는 비율을 의미하며, 교육 환경의 변화를 보여주는 중요한 지표.
- 위기 학교: 충원률이 기준 이하로 떨어져 운영이 어려워진 학교를 지칭.
- 충원률: 학교의 정원 대비 실제 입학생 수의 비율을 의미하며, 교육기관의 경쟁력을 나타냄.
- 노령화지수: 65세 이상 인구와 14세 이하 인구의 비율로 고령화 수준을 측정.
- 스타 스키마: 중앙의 사실 테이블과 주변의 차원 테이블로 구성된 데이터 모델링 기법.
이렇게 3일차를 정리하면서 설계 방안과 모델 선택을 구체화했다. 데이터 수집과 마스터 테이블 설계가 분석의 핵심이 될 것으로 예상된다.
수작업 이슈..
2012년을 기점으로 도로명 주소가 변경됨과 동시에 수 많은 대학교들이 이름을 변경했다. 또한 정책이 변경됨에 따라 통-폐합 이슈가 많이 관찰되어 관련 대학교에 대한 데이터 수정 작업을 한땀한땀 해야 하는 상황이 발생해버렸다...
화이팅 해보자.