[Statistics] 유의차 분석

qw4735·2023년 9월 8일
0

Statistics

목록 보기
4/5

두 그룹 간의 주요 요인인자 산출 및 통계적 차이 검증

유의차(significant difference) 분석

  • 유의차 분석 : 데이터의 평균 or 비율 등의 차이가 통계적으로 의미가 있는지, 통계 모형을 사용하여 검정(test)하는 분석 기법.
  • 통계학에서 두 그룹 군의 차이를 비교하고자 할 때, 통계적 유의차가 있는지 확인하는 과정을 통틀어 유의차 분석이라고 함.
  • 제조업의 경우에, 시스템에 저장된 데이터(생산, 품질 등)를 분석하여 제품 품질에 영향을 미치는 주요 원인을 파악하기 위함.
  • 유의차 분석 진행은 다음 두 가지 부분으로 나뉨.
  1. 분석 실행
  2. 분석 결과 집계 및 시각화
    (1) 분석하고자 하는 요인들을 머신러닝 모델을 통해 중요도를 산출 -> 주요 요인 리스트를 생성
    (2) 주요 요인 리스트 기준으로 통계적 유의성 검정 진행 및 결과 산출

(1) 주요 요인 리스트 및 중요도 산출

  • 비교하고자 하는 그룹 간 유의 인자에 대한 중요도를 산출하기 위해 머신러닝 모델 중 학습에 걸리는 시간이 적고, 성능도 우수한 LightGBM 선정
  • 모델 학습 후 변수 중요도 계산

(2) 대조군/실험군 평균 비교 검정 결과 추출

  • 머신러닝 모델 변수 중요도를 통해 생성된 주요 요인 리스트가 통계적으로 유의미하게 차이가 있는지는, 서로 다른 2개 집단 평균 비교 검정을 통해 확인 가능하다.
  • 두 집단의 평균을 비교할 때는 t-검정이 사용되며, t-검정은 다음과 같이 분류됨.

서로 다른 2개 집단 평균 비교 방법

  • 기준 : 독립성 가정, 정규성 가정, 등분산성 가정

    1. 독립성 가정 성립 여부
    - 독립성 가정 O : 독립 표본 집단 / 독립된 두 집단 간 비교 (서로 다른 두 모집단으로부터 데이터 추출)
    - 독립성 가정 X : 대응 표본 집단 / 한 집단 내 비교 (하나의 모집단으로부터 데이터 반복 추출)
    -> 대응 표본 t-검정 (Paired sample t-test)


    2. 독립성 가정 성립 하에 정규성 가정 성립 여부
    - 정규성 가정 O : 모수적 방법, 중심극한정리(n>30)
    - 정규성 가정 X : 비모수적 방법, n < 10
    -> 맨 휘트니 U-검정( Mann-Whitney U test )


    3. 독립성, 정규성 성립 하에 등분산성 가정 성립 여부
    - 등분산성 가정 O : 등분산성 검사 만족, 분산이 동일.
    -> 독립 표본 t-검정 (Independent two sample t-test)
    - 등분산성 가정 X : 등분산성 검사 불만족, 이분산.
    -> 웰치스의 t-검정( Welch t-test )

  • 정규성 검사 : Shapiro-Wilk Test
  • 등분산성 검사 : Levene's Test

  • 데이터 타입/ 정규성 / 등분산성에 따라 해당하는 검정 방법을 구분하고, 각 컬럼당 구분된 검정을 진행하여 통계적 유의성 검정 결과를 산출한다.
  • p-value를 계산하여 0.05이하이면 통계적으로 유의미하다고 판단할 수 있으나, 해당 threshold 값은 달라질 수 있다.

reference : https://ysjang0926.github.io/data/2023/02/11/significant-difference-test/

0개의 댓글

관련 채용 정보