[빅데이터분석기사] Part4 - CH 02. 분석결과 해석 및 활용

조민수·2025년 8월 25일
0

빅데이터분석기사

목록 보기
13/13
post-thumbnail

Part 4. 빅데이터 결과 해석

Chapter 02. 분석결과 해석 및 활용


Section 01. 분석결과 해석

1. 분석 모델별 결과 해석

  • 모델마다 해석 지표 상이

1-1. 회귀 모델

  • 잔차 : 실제값과 예측값의 차이
    : MAE, MSE, MAPE, RMSE, RMSLE

  • 결정계수 : 추정된 회귀식이 변동을 잘 설명한 정도
    : 1에 가까울수록 좋다.
    : R^2, Adjusted R^2

1-2. 분류 모델

  • 각 경우에 따른 클래스 별 속할 확률의 정확도
    : 정확도, 정밀도, Recall, F1-Score, ROC

1-3. 딥러닝 모델

  • 분류 문제 : 정확도, 오차율
    • 오차율 : 상대오차, 평균 제곱근 편차

1-4. 군집분석 모델

  • 연속형 변수 : 평균, 중앙값
  • 범주형 변수 : 범주별 각 군집의 분포
  • 외부 평가 : 자카드 지수
  • 내부 평가 : Dunn Index, 실루엣 계수, 팔꿈치 기법

1-5. 연관분석 모델

  • 2개 이상 품목 간 상호 관련성
  • 지지도, 신뢰도, 향상도 with 최소 기준점
    : Apori 알고리즘

ROI
: 투자 자본에 대한 수익/손실 비율
: (금전적 이익 - 소요비용 / 소요비용) X 100


2. 분석 모델별 시각화

2-1. 회귀 모델

  • 변수들 간 관계 분석을 위함
  • Heat Map, Scatter Plot(산점도)
    1. 비교 시각화 : 여러 변수 비교를 통한 식별 수치, 정도 표현
    2. 관계 시각화 : 변수들 간 관계 표현

2-2. 분류 모델

  • SVM : 산점도와 구분선을 통한 비교시각화
  • KNN : 평행좌표계로 변수들 간 연관성, 그룹데이터 경향성 파악
  • Decision Tree

2-3. 딥러닝 모델

  • 모델 아키텍처에서 파라미터, 가중치, feature 차원 감소

2-4. 군집분석 모델

  • 클러스터별 산점도

2-5. 연관분석 모델

  • 네트워크 그래프 : 연관성 있는 항목끼리 그룹화 - 관계 시각화

Section 02. 분석결과 시각화

1. 데이터 시각화

  • 분석 결과를 쉽게 이해할 수 있도록 도표와 차트를 통한 시각적 표현 및 전달
    : 기능적 + 심미적 측면

  • 정보 습득 시간 절감, 데이터에 대한 즉각적 판단

  • 통계적 그래픽 : 2, 3차원에서 데이터 분포 + 통계적 정보 표현

  • 주제 지도학 : 특정 주제의 지리적 분포, 패턴을 지도 형태로 표현

1-1. 데이터 유형

데이터

  • 범주형
    • 명목형 : 특정 카테고리가 가질 수 있는 값의 집합, 순서X
    • 순서형 : 명목형 + 순서
  • 수치형
    • 이산형 : 셀 수 있는 형태의 정수 값
    • 연속형 : 측정되는 양, 시간, 온도 등

척도 (측정 대상의 수치화)

  • 질적 척도
    • 명목 : 단순 분류 용도로 사용, 의미 없는 값 (남자 : 1, 여자 : 0)
    • 서열 : 선호되는 순위, 숫자에 대한 의미O, 비율, 간격에 대한 의미X
  • 양적 척도
    • 등간 : 수 자체, 차이는 의미 있으나 비율은 의미 없음
    • 비율 : 가장 높은 측정 단위, 모든 값, 비율 의미 있음

1-2. 데이터 시각화 방법

  • 데이터 시각화 : 데이터 값을 정량화하여 시각적 속성 부여 → 그래프
  • 연속형 : 위치 + 크기 + 선 굵기 + 색
  • 이산형 : 연속형 + 형태 + 선 유형
  1. 시간 데이터
    : 막대, 누적막대 그래프, 점, 선 그래프

  2. 분포 데이터
    : 히스토그램, 파이, 도넛 차트, Tree map, 누적 연속 그래프

  3. 관계 데이터
    : 산점도, 버블차트, 히트맵

  4. 비교 데이터
    : 히트맵, 체르노프 페이스, 스타차트, 평행좌표계, 다차원 척도법

  5. 공간 데이터
    : 지도 맵핑


2. 데이터 시각화 영역

2-1. 정보 시각화

  • 추상화된 데이터를 사람이 인지하기 쉽도록 시각화
  • 방대한 양의 정보를 직관적으로
  • 카토그램, 분기도, 개념도, 트리맵

    데이터 시각화
    : 그래픽을 통한 정보에 대한 명확한 ㅍ현

    정보 시각화
    : 데이터 시각화 + 정보 형태 가공
    : 큰 범위의 집합에 대한 수치, 비수치적 시각적 표현

2-2. 정보 디자인

  • 시각 디자인의 하위 영역
  • 정보를 구성해 효율적 사용을 지원
  • 그래픽 디자인 강조

2-3. 인포그래픽

  • 복잡한 수치, 텍스트 정보와 지식을 한눈에 파악
  • 스토리를 통한 정보 전달 및 설득형 메시지
    : 통계, 과정, 비교, 지도, 목록, 타임라인 등

3. 시간 시각화

  • 시간 흐름에 따른 데이터 변화 및 추세 표현

3-1. 이산형

  • 특정 시점의 값
    : 막대, 점 그래프

3-2. 연속형

  • 구간의 변화하는 값
    : 꺾은선, 계단, 추세선

묶은 막대 그래프
: 2개 이상 변수에서 첫번째 변수 위치에 나머지 값 표현
: 누적합 / 추이 판단 어려움

꺾은선 그래프
: 경향성 뚜렷

계단 그래프
: 특정 시점에서의 변화

추세선
: 값의 즉각적 변화에 대한 표현X
: 변화의 경향성 표현


4. 분포 시각화

  • 각 영역을 모두 합치면 1, 100%

4-1. 히스토그램

  • 세로축 : 데이터 분포 정도
  • 가로축 : 특정 변수의 구간 폭
  • 특정 변수 값이 어떻게 분포되어있는지 파악

    도수분포표
    : 데이터 값의 다양한 산출분포
    : 일정 범위(계급)에 대한 건수

    누적히스토그램
    : 각 구간값(빈도) 누적
    : 마지막(가장 우측) = 전체 데이터 수

4-2. Pie Chart, Donut Chart

  • Pie Chart
    : 데이터 값에 대한 정확한 표현 어려움
    : 여러 분류에 대한 값 표현 → 각각의 차트 필요

  • Donut Chart
    : 동일 성격 데이터 = 1 Chart에 중첩 표현
    : 길이(면적X)로 값의 정도 표현

4-3. Tree Map

  • 하나의 사각형 + 세부 사각형 크기로 데이터 분포 표현
  • 계층형, 트리 구조 데이터 표현에 유리

4-4. 누적연속그래프

  • 선 그래프 영역을 통해 시간 변화에 따른 값의 변화 표현
  • 변화하는 값의 흐름 시각화
  • 집단의 경향성을 추적하진 않음

4-5. 파레토 차트

  • 막대 + 선 그래프
  • 내림차순 막대 : 개별 데이터 값
  • 누적 선 그래프 : 누적 총계
  • 결과에 영향을 미치는 주요 요인 도출 시 사용
  • 명목형 변수 개수 데이터에 적합 (연속형X)
    • 순서형 데이터에는 적합하지 않음

5. 관계 시각화

  • 데이터셋에 변수가 2개 이상 있을 때 변수 간 상관관계 표현

5-1. Scatter Plot : 산점도

  • 두 변수의 값을 2, 3차원 좌표계에 으로 표시
  • ↗ : 양의 상관관계
  • ↘ : 음의 상관관계

5-2. 버블 차트

  • 산점도(x, y) + 원의 크기
  • 도시 별 인구밀집도 등 국가/지역에 따른 값 분포

5-3. Heat Map

  • 데이터 분포 및 관계에 따른 정보를 으로 표현
  • = 수치의 정도

5-4. 모자이크 플롯

  • 2개 이상 범주형 데이터의 상관관계

6. 비교 시각화

  • 하나 이상의 변수에 대해 변수 사이의 차이, 유사성 표현

6-1. Heat Map

  • 다수의 변수, 대상에 대한 표 형식의 시각화
  • 연속형 데이터 값 변화 표현에 적합
    : 온도 등

6-2. 체르노프 페이스

  • 데이터 표현에 따른 차이 = 얼굴 모양
  • 한 대상의 특징을 명확히 표현함
    : 여러 대상 표현 못함

6-3. Star Chart

  • 여러 변수값의 비교를 하나의 차트로

6-4. 평행좌표계

  • Star Chart의 여러 축을 평행하게 배치
  • 한 대상이 변수 값에 따라 변동하는 연결선

6-5. 다차원 척도법

  • 객체 간 근접성 시각화
    : 대상 간 거리, 유사성이 클수록 가깝게

  • 유사성 측정 척도

    1. 계량형 : 실제 측정거리, 유클리드 거리
    2. 비계량형 : 절대적 크기 무시, 순위 정도

7. 공간 시각화

  • 장소, 지역에 따른 데이터 분포 표현
  • 위치, 거리, 색상 기반 표현
    : 지형 코드화 → 매핑

7-1. 단계구분도

  • 정량정보 표시 시, 데이터 분포 지역별 상이
  • 모양에 대한 왜곡 없음

7-2. 카토그램

  • 데이터 값에 따라 지도 면적을 인위적으로 왜곡
  • 직관적 이해를 높이나 시각적 왜곡 발생

Section 03. 분석결과 활용

1. 분석모형 전개 - 보편적 방법론

  • 빅데이터 분석방법론 표준 프로세스
    1. 분석 기획 : Planning
    2. 데이터 준비 : Preparing
    3. 데이터 분석 : Analyzing
    4. 시스템 구현 : Developing
    5. 평가 및 전개 : Deploying

1-1. CRISP-DM

  1. 비즈니스 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

1-2. SEMMA

  1. 샘플링
  2. 탐색
  3. 전처리
  4. 모델링
  5. 평가

1-3. KDD

  1. 데이터 추출
  2. 전처리
  3. 변환
  4. 데이터 마이닝
  5. 해석/평가

전개 단계 : Deploying

  • 개발된 모델을 적용한 결과 확인 및 지속적 관리
  1. 분석결과 활용 계획 수립
    : 분석 결과를 어떻게 업무에 반영할 것인지
    : 업무 성과를 지속적으로 모니터링 할 방안 수립
  1. 분석결과 적용 및 보고서 작성
    : 모델, 결과를 업무 현장에 적용
    : 성과 측정 지표에 따라 분석 성과 측정 및 개선 계획 수립
  1. 분석모형 모니터링
    : 주변 환경과 데이터 변화를 빅데이터 분석 모델에 지속적으로 반영
  1. 분석모형 리모델링
    : 변화된 업무, 데이터를 지속적으로 수용
    : 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화
    : 분석데이터를 교체하진 않는다.
profile
Being a Modern Software Engineer

0개의 댓글