[Data Analysis] 1. 기본 정의(1)

Fly High!·2020년 8월 19일
0

Data Analysis

목록 보기
1/17
post-thumbnail

1. Data

  • Dataframe
    : 행과 열로 구성된 데이터 = 2차원 구조
  • 행 (Row)
    : 행의 이름 = Index
  • 열 (Column)
    : 변수 (Variable) = 특징 (Feature)

1) 일변량 질적 자료 분석

  • 문자, 숫자 (숫자의 의미 x)
  • 구간별 빈도 or 백분율로 나누어 한눈에 보기 쉽게 분석 가능
    ex) Price_group = [very cheap, cheap, fair, expensive, very expensive]
    ex) 막대그래프, 원그래프

2) 일변량 양적 자료 분석

  • 가장 빈번하게 사용
  • 숫자 (숫자의 의미 ㅇ)
  • 예측 (Prediction, Forecast)하는데 사용되는 자료
    ex) Price = [0 ~ 5000, 5000 ~ 10000, 15000 ~ 20000]
    ex) 히스토그램, 상자그림

2. 대표값

1) 평균 (Mean)

  • 평균은 일변량 양적 자료의 값을 모두 더한 후, 데이터의 개수로 나눈 값
  • 단, 통계에서는 자유도이라는 개념이 있으며, 자유도로 나눔

    자유도 (df : degree of freedom) :
    통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

2) 절사(절삭)평균 (Trimmed Mean)

  • 방대한 양의 모집단의 모든 데이터를 파악하기 힘들기 때문에 표본을 구하여 대표값을 구함
  • 평균을 구하는 과정에서 이상치 때문에 데이터 해석에 영향을 끼칠 수 있기 때문에 표본의 최대, 최소 수치를 제외 후 평균을 구함

    이상치 (Outlier):
    결과를 왜곡시키거나 분석의 적절성을 위협하는 변수값

3) 중위수 = 중앙값 (Median)

  • 일변량 양적 자료를 정렬한 후에 순서적으로 가운데 있는 값
  • 홀 : 가운데 값
  • 짝 : 가운데 양쪽 평균 값
  • 이상치가 있을 경우, 평균보다 중위수가 양적 자료의 중심(대표값)의 역할을 더 잘할 수 있음

4) 최빈수 = 최빈값 (Mode)

  • 빈도를 구했을 때 빈도가 가장 큰 값
  • 최빈수는 평균, 중위수와 다르게 2개 이상의 값을 가질 수 있음

    모든 대표값들 양적 자료의 중심으로 역할을 잘 할 수도 있고, 그렇지 않을 수도 있기 때문에 판별할 수 있는 능력을 길러야함


3. 퍼짐 = 산포 = 다름

  • 일변량 양적 자료들이 서로 얼마나 다른지 알려주는 정보
  • 퍼짐 값이 작을 수록 양적 자료들이 비슷한 값들로 구성되어 있다는 의미

1) 범위 (Range)

  • 양적 자료 최대값 - 최소값
  • 범위에서도 이상치가 존재할 경우 올바른 정보를 제공할 수 없음

    사분위범위(IQR : Inter Quartile Range)
    : 자료 정렬 후 작은 쪽 25%와 큰 쪽 25%를 제거 후 범위를 구한 값

2) 분산 (Variation)

  • 일변량 양적 자료들이 평균과 얼마나 떨어져 있는지 알려주는 정보
  • 편차 (Deviation) = 각 자료 - 평균 -> sum(편차**2) / 자유도
  • 크기가 n인 표본의 관측값의 자유도n-1
  • 분산 값이 작을 수록 보지 못한 양적 자료들이 평균과 비슷한 값들로 구성되어 있다고 해석

3) 표준편차 (Sb : Standard Deviation)

  • 분산을 구할 때, 편차를 제곱했기 때문에 단위가 달라져 표준편차를 구함
  • 분산의 제곱근

4) 중위수 절대 편차 (Mad)

  • 중위수의 개념을 이용하여 양적 자료의 퍼짐의 정보를 구함
  • 중위수 구함 -> 각 자료 - 중위수 -> 뺀 값의 절대값 -> 오름차순 정렬 -> 정렬된 값의 중위수

Key.

  • 자료를 해석하는데 있어서 항상 이상치가 존재할 수 있음을 인식하고 있어야함
profile
Back-end, Python, Data

0개의 댓글