[통계학] 통계야 놀자 02

Data_Student·2024년 11월 14일
0

통계학 기초

목록 보기
8/10

[통계학] 통계야 놀자 02


01. 데이터 분석가의 통계적 실험

  • 실험설계는 특정 가설(의도)을 확인하거나 기악하기 위한 목표를 가지고 있다.

  • 데이터 종류에 따라 알맞은 분석기법을 활용해야 한다.

  • 즉, 데이터 종류를 파악하기의 중요성 ↑

    • 변수 : 대상의 속성이나 특성을 층정하여 기록한 것
    • 독립변수 : 원인이 되는 변수로, 설명변수
    • 종속변수 : 결과가 되는 변수로, 결과변수, 독립변수에 따라 값이 변할 것으로 예상하는 변수
    • 모수 : 모집단을 대표하는 값
    • 모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용
    • 비모수통계 : 모집단이 정규분포가 아닐 때 사용(즉, 표본의 크기 ↓)
  • A/B 테스트 분석 기법에 필요한 3가지

    • 가설설정
    • 통계적 의미 해석(p-value)
    • 가설검정(T 검정, 카이제곱 검정)
  • 데이터 분석가는 상황에 알맞은 분석을 설계하고 진행

    • 다른 팀의 요청 또는 프로젝트를 진행하며 능동적으로 분석을 설계

    • 통계적 실험

      • 정의 : 어떤 목적을 가지고 관찰을 통해 결과(측정값) 얻어내는 것
      • 목적 : 통계적 추론을 통해 보다 진실에 가까운 값을 도출하기 위함
      • 프로세스 : 가설수립 → 실험 설계 → 데이터 수집 → 추론 및 결론 도출

02. A/B Test

  • 비즈니스 마케팅시 필수이며, 마케팅 고객 데이터 분석 중 가장 널리 사용되는 방법

  • 테스트의 목적

    • 고객의 니즈파악
    • 최소 투자 대비 최대 이익 창출(ROI 상승)
  • 개념이해

    • 정의 : A/B Test는 두 가지 처리 방법 중 어떠한 쪽이 더 좋다라는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험 ( = 버킷테스트, 분할 테스트 )
    • 목적 : UI/UX 개선, 전환율 증가, 매출 증가
    • 주요 지표 : 서비스 가입률(신규유저 확보), 재방문율, CTR, CVR, ROAS, eCPM
  • 프로세스

    • 현행 데이터 탐색
    • 가설 설정
      • 귀무 가설, 대립 가설 설정
    • 유의수준 설정
    • 테스트 설계 및 실행
    • 테스트 결과 분석
  • A/B 테스트 주의사항

    • 적절한 표본 크기
    • 하나의 변수만 변경
    • 무작위성
    • 적절한 분석 방법
    • 테스트 결과의 의미
    • 정해진 기간 동안 진행

03. 유의수준 설정하기

  • 신뢰수준의 반대 개념

  • 중심극한정리 : 표본수집을 기반으로 한 추리통계에서 모집단의 분포가 어떤 모ㅑㅇ이더라도 모집단의 크기가 충분히 크다면 표본평균의 분포가 정규분포를 이룬다

  • 유의수준

    • 정의 : 귀무가설이 맞을 때 기각할 확률
    • 표기 : σ
    • 범용적 기준 : 0.05, 0.01, 0.1
    • 신뢰도와의 관계 : 95%의 신뢰도를 기준으로 한다면 (1-0.95)인 0.05값이 유의수준

04. 검정통계량과 p-value

  • 결과 해석 단계 1 : 검정 방식 정하기 & 검정통계량 계산하기

  • 검정통계량 : 귀무가설을 채택 또는 기각하기 위하 사용하는 확률변수

  • 검정 방식( 검정 통계량 / 검정통계량 범위 / 활용대상 / 대상 )

    • Z 검정 : Z-value / -∞ ~ +∞ / 집단 개수 주로 2개(분산을 알경우) / 연속형 자료
    • T 검정 : T-value / -∞ ~ +∞ / 집단 개수 주로 2개(분산을 모들 경우) / 연속형 자료
    • 카이제곱검정 : X²-value / 0 ~ ∞ / 집단 개수 주로 2개 이상 / 범주형 자료
    • F 검정 : F-value / 0 ~ ∞ / 집단 개수 주로 3개 이상 / 범주형 자료
  • 결과 해석 단계 2 : p-value

    • p-value : 어떤 사건이 우연히 발생할 확률
    • p-value 가 0.05 보다 작은 경우
      • 우연히 일어났을 가능성이 거의 없다
      • 즉, 인과관계가 있다고 추정
      • 대립가설 채택
    • p-value 가 0.05 보다 큰 경우
      • 우연히 일어났을 가능성이 높다
      • 즉, 인과관계가 없다고 추정
      • 귀무가설 채택

0개의 댓글