[3] 1-1 데이터 분석 기법의 이해

jdsilver96·2022년 2월 19일
0

adsp

목록 보기
20/26

1. 데이터 처리

  • 신규시스템이나 DW에 포함되지 못한 자료의 경우, 기존운영시스템(Legacy)이나 스테이징영역(Staging area)와 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합해 사용 가능
  • 하지만, 운영시스템에 직접적인 데이터 작업은 매우 위험하므로, 스테이징 역역의 데이터는 legacy에서 임시로 저장된 데이터이기 때문에 가급적이면ODS에서 데이터 전처리를 통해 DW,DM과 결합하여 사용하는 것이 가장 이상적

2. 시각화

  • 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 효율적
  • 빅데이터 분석에서 시각화는 필수
  • 탐색적 분석에서 시각화는 필수
  • SNA분석(사회연결망 분석) 시 자주 활용

3. 공간분석(GIS)

4. 탐색적 자료 분석(EDA)

  • 개요: 다양한 차우너고 ㅏ값을 조합하며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해 가는 과정, 데이터 특징과 내재하는 구조적 관계를 알아내기 위한 기법의 통칭
  • EDA 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
  • 데이터 이해단계, 변수생성 단계, 변수선택 단계에서 주로 활용

5. 통계분석

  • 통계
  • 기술통계: 표본이 가지고 잇는 정보를 쉽게 파악할 수 있도록 데이터를 정리, 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차
  • 추론통계: 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차
  • 활용분야: 정부, 농업, 의학, 경영, 스포츠

6. 데이터마이닝

  • 개요: 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턱, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석법
  • 방법론
    - 데이터베이스에서의 지식탐색
    • 기계학습: 인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SVM 등
    • 패턴인식: 장바구니분석, 연관규칙
  • 활용분야
    - 데이터베이스 마케팅
    • 신용평가 및 조기경보시스템
    • 생물정보학
    • 텍스트 마이닝
profile
데이터사이언티스트(NLP)

0개의 댓글