데이터 분석 기초

JEEWOO SUL·2021년 8월 28일
1

📂 기타

목록 보기
4/11
post-thumbnail

시각화

  • 가장 낮은 수준의 분석이지만 잘 이용하면 효율적
  • 탐색적 분석을 할 때 시각화는 필수이다.
  • 사회연결망 분석(SNA)에 자주 이용된다
  • ex) 차트, 도표 등

공간분석

  • 공간적 차원과 관련된 속성들을 시각화하는 분석
  • ex) 지도 위의 자동차 운행 상황 등

탐색적 자료 분석 (EDA)

  • 다차원과 값을 조합해가며 특이점이나 정보를 도출하고 분석의 최종목적을 달성해가는 과정
  • 모형 개바에서 데이터 이해, 변수 생성, 변수 선택 단계에 이용
  • EDA 4가지 주제
    - 저항성 강조 : 데이터 파손에 대한 저항성
    - 잔차 계산 : 개별 관측값이 자료의 주경향으로부터 얼마나 벗어났는지 확인
    - 자료변수의 재표현을 통한 다각적 시도
    - 그래프를 통한 현시성

통계 분석

  • 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림의 형태로 나타내는 것
  • 기술통계, 추론통계

데이터 마이닝

  • 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법
  • 방법론
    • 기계학습 : 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM
    • 패턴인식 : 연관규칙, 장바구니 분석
  • 모델링


통계 분석


  • 모집단 : 조사하고자 하는 대상 집단 전체 ex) 한국인 전체
  • 표본 : 조사하기 위해 추출한 모집단 ex) 20대 남성 300명
  • 통계량 : 표본을 관측한 결과 ex) 20대 남성 300명 키의 평균, 표준편차, 분산
  • 모수 : 통계량을 통해 추정한 모집단에 대해 정보 ex) 우리나라 20대 넘성 키의 평균

자료 획득 방법

  • 전수 조사 : 전부 조사, 모든 대상을 조사 ex) 인구주택 총 조사
  • 표본 조사 : 모집단에서 샘플을 추출하여 진행하는 조사 ex) 당뇨병이 있는 300명을 추출하여 조사

표본 추출방법

모집단을 대표할 수 있는 표본 추출이므로 표본 추출방법에 따라 분석결과에 큰 차이가 있음

  • 단순랜덤 추출법(simple random sampling)
  • 계통추출법(systemtic sampling) : 번호를 부여한 샘플을 나열하여 K개씩 n개의 구간으로 나누고 구간마다 표본을 선택
  • 집락추출법(cluster sampling) : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 샘플링
  • 층화추출법(stratified sampling) : 각 계층을 고루 대표할 수 있도록 층을 나누고 표본을 추출

자료 측정 방법

  • 명목 척도 : 어느 집단에 속하는지 분류할 때 사용 ex) 성별, 출생지
    • 어느 지역에 살고 계십니까?
  • 서열 척도 : 서열 관계를 관측하는 척도 ex) 만족도, 선호도
    • 당신이 판단할 때 본인이 속한 사회 계층은? 1) 상류층 2) 중산층 3) 하류층
  • 구간 척도 : 의미있는 수치(소수점 X), 구간 사이의 간격이 의미있음 ex) 온도, 지수
    • 현재 자녀수에 대해 1) 적다 2) 적당하다 3) 많다
  • 비율 척도 : 간격에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재 ex) 무게, 키, 나이, 시간, 거리
    • 자녀의 수는 몇 명입니까? (없으면 0)

사분위수 정의

사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값이다. 사분위수를 사용하여 데이터 집합의 범위와 중심 위치를 신속하게 평가할 수 있다.

사분위수설명
제 1 사분위수 (Q1)데이터의 25%가 이 값보다 작거나 같음
제 2 사분위수 (Q2)중위수 데이터의 50%가 이 값보다 작거나 같음
제 3 사분위수 (Q3)데이터의 75%가 이 값보다 작거나 같음
사분위간 범위(IQR)Q3-Q1, 데이터 중간에 대한 범위

ex) data = 7,9,16,36,39,45,45,46,48,51

  • Q1 = 14.25
  • Q2(중위수) = 42
  • Q3 = 46.50

확률 및 확률 분호

  • 표본 공간 : 어떤 실험을 할 때 나타낼 수 있는 모든 결과들의 집합
  • 사건 : 표본공간의 부분 집합
  • 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
    • 이산확률 변수 : 변수가 끊어짐 ex) 4,3,2,5,8
    • 연속확률 변수 : 변수가 연속적임 ex) 1,2,3,4,5
  • 확률 분포 : 확률 변수가 특정한 값을 가진 확률을 나타내는 함수

이산형 확률분포

  • 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우
  • 종류 : 베르누이 분포, 이항 분포, 기하 분포, 다항 분포, 포아송 분포

연속형 확률분포

  • 가능한 값이 실수 어느 특정구간 전체에 해당하는 확률변수
  • 종류 : 균일분포, 정규분포, 지수 분포, t-분포, 카이제곱 분포, F-분포
profile
느리지만 확실하게 🐢

0개의 댓글