KT 에이블스쿨 7일차(1)

박기범·2023년 2월 8일
0

에이블스쿨

목록 보기
10/95

데이터 처리와 데이터 방법론과 분석한 데이터를 시각화 하는법에 대해 알아보겠습니다.
데이터분석 방법론과 시각화를 분리하여 포스팅하기 위해 방법론을 먼저 포스팅하겠습니다.


데이터분석 방법론(CRISP-DM)

▶1단계 : 비지니스 이해
문제에 대해 정의하는 단계입니다. 분석에 대해 목표를 설정하고 가설을 수립합니다.
목표를 y로 잡고 y를 설명하기 위한 요인을 x로 설정합니다. 따라서 가설의 구조는 x->y의 형태를 가집니다.

▶2단계 : 데이터 이해의 단계
가설에서 설정한 x,y는 모두 정보(변수)입니다. 그런 정보들이 어디에 있느냐에 대해서가 바로 원본 식별입니다.
있는 데이터없는 데이터가 있습니다. 없는 데이터 중에는 취득 가능한 데이터취득 불가능한 데이터로 나뉘어집니다.
있는 데이터와 없는 데이터 중 취득가능 데이터를 묶어서 가용한 데이터라고 부릅니다. 가용한 데이터는 검토 및 과제를 수행합니다.(취득 가능한 데이터는 비용 산정이 추가로 필요합니다.)
없는 데이터 중 취득 불가능한 데이터는 최대한 가용한 데이터 영역으로 만들고 정보를 분할해야합니다.

데이터 이해 단계에는 원본 식별뿐 아니라 가설이 진짜인지 확인도 합니다.
EDA, CDA 두 가지 방법을 통해 가설을 확인합니다.
EDA는 탐색적으로 데이터를 분석하고 CDA는 확증적 데이터 분석 도구입니다. EDA는 그래프를 그리고 통계량을 확인라고 CDA는 가설검정을 통한 실험을 진행합니다.

두 가지 방법을 통해 가설을 확인하고 전처리 대상을 파악합니다. 그리고 데이터와 비지니스에 대해 더 잘 이해할 수 있습니다. (언제 어떤 그래프를 그리고 어떻게 해석하는지, 언제 어떤 통계량을 구하고 어떻게 해석하는지, 언제 어떤 가설검정 방법을 사용하고 어떻게 해석하는지에 대해 알아야합니다.)
※목적은 도구가 중요한 것이 아니라 해석을 하는 것이 중요합니다.

EDA와 CDA의 분석 순서
1)단변량 분석 : 개별 변수의 분포
예) 타이타닉 탑승객의 나이 분석
2)이변량 분석1 : feature와 target간의 관계 (가설을 확인함)
예) 타이타닉의 객실등급에 따른 생존 여부가 있는지에 대해 확인
3)이변량 분석2 : feature간의 관계(서로 독립인지 아닌지 확인함)

▶3단계 : 데이터 준비 단계
데이터 준비 단계에서는 모델링 모델 구축을 위해 전처리를 하는 단계입니다.
모델링 모델 구축하기 위해서는 아래 조건을 만족해야합니다.
1) 모든 셀에는 이 있어야 합니다. (결측치 제거 or 조치)
2) 모든 값은 숫자여야 합니다. (범주를 숫자로 변환함, 계산과 통계를 구하기 위해)
3) 값의 범위를 일치시켜야 합니다.
위 조건들을 만족시키기 위해 수행하는 내용은 아래와 같습니다.
1)결측치에 대한 조치
2)가변수화(번주를 숫자로 변환)
3)스케일링(값의 범위를 일치)
4)데이터분할
위 과정을 수행하여 모델링을 위한 모델을 준비해 줍니다.

▶4단계 : 모델링
모델링은 아래와 같은 내용을 수행합니다.
1)중요 변수 선정
2)모델 생성
3)모델 성능 검증
위 내용의 단계들이 수행되어 모델링을 합니다.

▶5단계 : 평가
평가 단계에서는 문제가 어떻게 해결이 되었는지 확인하는 단계입니다. 최종평가비지니스 기대가치 평가가 있습니다. 비지니스 기대가치 평가는 문제 해결이 얼마나 잘 이루어졌는지 확인하는 단계입니다.

▶6단계 : 배포
시스템의 유효성 검사와 프로젝트 이전이 이루어지는 단계입니다.

이상으로 데이터 분석론에 대해 알아봤습니다.







7일차에는 데이터분석 방법론과 시각화 도구에 대해 배웠습니다. 데이터분석 방법론과 시각화 도구에 대해서는 나눠서 포스팅을 하는 것이 좋을 것 같아서 데이터분석 방법론을 먼저 포스팅하고 다음 포스팅에 시각화 도구에 대해 마저 포스팅하겠습니다.




※공부하고 있어 다소 틀린점이 있을 수 있습니다. 언제든지 말해주시면 수정하도록 하겠습니다.
※용어에 대해 조금 공부 더 해서 수정하겠습니다.

profile
개발자가 되기 위한 한걸음

0개의 댓글