ADsP - Part 3 데이터 분석 / 1장 데이터 분석 개요

Namwoo Kwon·2022년 10월 17일
0

ADsP

목록 보기
7/7
post-thumbnail

데이터 분석 기법의 이해

데이터 처리

활용

  • 데이터 웨어하우스(DW)와 데이터 마트(DM)를 통해 분석 데이터를 가져와서 사용
  • 신규 시스템이나 DW에 포함되지 못한 자료의 경우, 기존 운영시스템(Legacy)이나 스테이징 영역(Staging Area)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다

최종 데이터 구조로 가공

  • 데이터 마이닝 분류

    • 분류값과 입력 변수들을 연관시켜 인구 통계, 요약 변수, 파생 변수 등을 산출
  • 정형화된 패턴 처리

    • 비정형 데이터나 소셜 데이터는 정형화된 패턴으로 처리

      • 비정형 데이터
        • DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합
      • 관계형 데이터
        • DBMS에 저장되어 사회 신경망 분석을 거쳐 분석 결과 통계값이 마트와 통합되어 활용

시각화

  • 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적
  • 빅데이터 분석에서 시각화는 필수
  • 탐색적 분석을 할 때 시각화는 필수
  • SNA 분석 (사회연결망 분석) 할 때 자주 활용

공간 분석 (GIS)

  • 공간적 차원과 관련된 속성들을 시각화하는 분석
  • 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다

탐색적 자료 분석 (EDA)

  • 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
  • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭

통계 분석

  • 기술 통계
    • 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
  • 추측(추론) 통계
    • 모집단으로부터 추출된 표본의 표본 통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차

데이터 마이닝

  • 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법

  • 방법론

    • 데이터베이스에서의 지식 탐색
      • 데이터 웨어하우스에서 데이터 마트를 생성하면서 각 데이터들의 속성을 사전 분석을 통해 지식을 얻는 방법
  • 기계 학습

    • 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야로 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM 등이 있다
  • 패턴 인식

    • 원자료를 이용해서 사전 지식과 패턴에서 추출된 통계 정보를 기반으로 자료 또는 패턴을 분류하는 방법으로 장바구니 분석, 연관 규칙 등이 있다
profile
🌳가 되기 위해 🌱부터 시작

0개의 댓글