[ADsP] 데이터 분석 개요

당당·2023년 7월 16일
0

ADsP

목록 보기
7/13

📔설명

데이터 처리 프로세스, 데이터 분석 기법 중 시각화, 공간분석, 탐색적 자료 분석을 알아보자.


데이터 분석을 위한 데이터마트

  • 데이터 분석을 위해 데아터웨어하우스(DW)데이터마트(DM)에서 데이터 추출
  • 운영시스템에서 데이터를 추출하여 분석용 데이터 구성

데이터 시각화

  • 데이터를 도표그림으로 한눈에 분석내용을 인지할 수 있는 데이터 분석기법
  • 가장 낮은 수준의 분석
  • 복잡한 분석보다 더 효율적으로 인사이트 얻음
  • 빅데이터 분석에서 필수적인 분석 방법

공간분석

  • 공간적 차원과 관련된 속성을 지도 위에 시각화하여 인사이트를 얻는 방법

탐색적 자료분석

  • 다양한 차원을 조합해 특이한 점이나 의미있는 사실을 도출하는 분석
  • 변수의 특징변수들 간의 관계를 탐색하는 분석 방법

🎈데이터 분석 기법의 이해

데이터 처리

데이터 분석
: 통계에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야

활용

  • 데이터웨어하우스(DW)데이터마트(DM)을 통해 분석 데이터를 가져와 사용
  • 신규시스템/DW에 포함되지 못한 자료의 경우 기존 운영시스템(Legacy)이나 스테이징 영역(Staging Area)ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용
  • 운영시스템직접 접근해 데이터를 활용하는 것은 매우 위험하므로 거의 이루어지지 X
  • 스테이징 영역(Staging Area)의 데이터는 운영시스템에서 임시로 저장된 데이터이기 때문에 가급적 클렌징 영역ODS에서 데이터 전처리를 해서 DWDM과 결합하여 활용

최종 데이터 구조가공

  1. 데이터 마이닝 분류
  • 분류값입력변수들을 연관시켜 인구통계, 요약변수, 파생변수등 산출

  1. 정형화된 패턴 처리
  • 비정형 데이터/소셜 데이터정형화한 패턴으로 처리

    • 비정형 데이터
      : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터마트통합

    • 관계형 데이터(소셜 데이터)
      : DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값데이터마트통합되어 활용


시각화(시각화 그래프)

  • 가장 낮은 수준의 분석
  • 잘 사용하면 복잡한 분석보다 더 효율적
  • 대용량 데이터를 다루는 빅데이터 분석에서 필수
  • 탐색적 분석필수
  • SNA 분석(사회연결망 분석)시 자주 활용

공간분석(GIS)

  • 공간분석(Spatial Analysis)공간적 차원과 관련된 속성들을 시각화하는 분석
  • 지도위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트 얻음


탐색적 자료 분석(EDA)

  • 다양한 차원을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
  • 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭
  • 프린스톤 대학 튜키교수의 1977년 저서 발표로 EDA 등장

EDA4가지 주제

  • 저항성강조
  • 잔차 계산
  • 자료변수재표현
  • 그래프를 통한 현시성

탐색적 분석효율 예시

  • 데이터이해 단계(변수 분포와 특성 파악)변수생성 단계(분석목적에 맞는 주요한 요약/파생변수 생성), 변수선택 단계(목적변수에 의미있는 후보 변수 선택)에 활용


통계분석

통계

  • 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 그림의 형태로 나타낸 것

기술통계(Descriptive Statistics)

  • 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프 형태로 표현하는 절차

추측(추론)통계(Inferential Statistics)

  • 모집단으로부터 추출된 표본표본통계량으로 부터 모집단의 특성모수에 관해 통계적으로 추론하는 절차

활용분야

  • 정부경제정책 수립평가의 근거자료로 활용
    ex) 통계청의 실업률, 고용률, 물가지수
  • 농업
    ex) 가뭄, 수해, 병충해 등에 강한 품종 개발 및 개량
  • 의학
    ex) 의학적 치료 방법의 효과, 신약 개발을 위한 임상실험 결과분석
  • 경영
    ex) 제품 개발, 품질관리, 시장조사, 영업관리
  • 스포츠
    ex) 선수들의 체질향상 및 개선, 경기 분석 및 전략분석, 선수평가와 기용

데이터마이닝

  • 고급 데이터 분석법
  • 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법

방법론

  • 데이터베이스에서의 지식 탐색
    : 데이터웨어하우스에서 데이터마트를 생성하면서 각 데이터들의 속성사전분석을 통해 지식을 얻는 방법

  • 기계학습(Machine Learning)
    : 인공지능의 한 분야.
    컴퓨터학습할 수 있도록 알고리즘기술개발하는 분야
    ex) 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM

  • 패턴인식(Pattern Recognition)
    : 원자료를 이용해서 사전지식패턴에서 추출된 통계 정보를 기반으로 자료 또는 패턴분류하는 방법
    ex) 장바구니 분석, 연관규칙 등


활용분야

  • 데이터베이스 마케팅
    ex) 방대한 고객의 행동정보를 활용한 목표 마케팅, 고객세분화, 장바구니분석, 추천시스템
  • 신용평가 및 조기경보시스템
    ex) 금융기관에서 신용카드 발급, 보험, 대출 발생시 업무 적용
  • 생물정보학
    ex) 세포의 수많은 유전자를 분석하여 질병의 진단 및 치료법 또는 신약 개발
  • 텍스트마이닝
    ex) 전자우편, SNS 등 디지털 텍스트 정보를 통해 고객성향분석, 감성분석, 사회관계망분석 등
profile
MySQL DBA 신입

0개의 댓글