chapter 3 D-3 TIL

홍유택·2025년 1월 20일

5.1 피어슨 상관계수

그림 = x와 y의 선형 관계를 보여줌

피어슨 상관계수

  • 두 연속형 변수 간의 선형 관계를 측정하는 지표
  • -1 에서 1 사이의 값을 가지며
  • 1은 완전한 양의 선형 관계
  • -1은 완전한 음의 선형 관계
  • 0은 선형 관계가 없음을 의미

피어슨 상관계수 사용 시기

  • 선형적인 관계 예상(ex 공부 시간과 시험 점수 간의 상관관계 분석)
  • 비선형 관계에선 사용 불가

0으로 나오는 데이터가 중요
피어슨 상관계수가 아닐 뿐, 관계가 있을수도있다.

5.2 비모수 상관계수

데이터가 피어슨과 같이 정규분포를 따르지 않을 때 사용하는 상관계수
x와y의 순위 관계를 나타냄

  • 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
  • 데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 떄 사용
  • 대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있음.

스피어만 상관계수

  • 두 변수의 순위 간의 일관성을 측정

켄달의 타우 상관계수

  • 순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산.
    ex) 키와 몸무게가 같이 커지면 일치 쌍에 해당, 서로 반대될 때 불일치 쌍에 해당, 이들의 개수 비율로 상관계수를 결정

비모수 상관계수가 쓰일 때

☑️ 데이터의 분포에 대한 가정을 하지 못할 때

☑️ 순서형 데이터에서도 사용하고 싶을 때

5.3 상호정보 상관계수

상호정보를 이용한 변수끼리의 상관계수 계산!
범주형데이터에서도 사용이 가능

가. 상호정보 상관계수 (Mutual Information Coefficient)

  • 두 변수 간의 상호 정보를 측정
  • 변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지
  • 서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산

- 범주형 데이터에 대해서도 적용 가능

  • 상호정보 상관계수를 그림으로 확인해보기
    • 보라색 점들은 X와 Y 간의 비선형 관계를 나타냄
    • 상호 정보 값은 0.90으로 표시되어 있으며, 이는 두 변수 간의 강한 비선형 의존성을 의미

가설검정의 주의점

6.1 재현 가능성

우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야 합니다!

  • p값을 어떻게 사용하느냐에 따라서 재현 가능성이 가능해지냐, 불가능해지냐가 정해진다
  • 최근 p값을 0.05 가 아닌 0.005까지 낮춰야한다는 논문도 나오는 중
  • 가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생

실험 조건을 동일하게 조성하기 어려움

  • 완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음
  • 가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음

6.2 p-해킹

  • 1) p-해킹이란 무엇인가?

    ☑️ p-해킹

    • 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위

    • 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함

      ☑️ 문제점

    • p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴

  • 2) p-해킹은 언제 조심해야하는가?

    ☑️ 여러 가설 검정을 시도 할 때

    • 여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심
    • p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심
    • 데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심
    • 즉, 결과를 보며 데이터 개수를 늘려서는 안됨
    • 다양한 상황 중에서 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심
    • 다양한 변수를 건드리며 유리한 결과가 나올 때 다시 처음 부터 가설을 그 결과에 맞게 세우는 것
    • 즉, 마음에 드는 상황만 골라서 보고해서도 안됨. 모든 결과를 다보고하거나 더 엄격한 추가실 험을 수행
    • 가능한 가설을 미리 세우고 검증하는 가설검증형 방식으로 분석을 해야 하며 만약 탐색적으로 분석한 경우 가능한 모든 변수를 보고하고 본페로니 보정과 같은 방법을 사용해야 함

6.3 선택적 보고

말 그대로 보고하는 것

유의미한 결과만 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위.

선택적 보고 주의할점

  • 유의미한 결과만 공개 할 때
  • 결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때

6.4 자료수집 중단 시점 결정

원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심

  • 자료수집 중단 시점 결정 :
    데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어트림.

6.5 데이터 탐색과 검증 분리

검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함

☑️ 데이터 탐색과 검증 분리

  • 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
  • 이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임

  • 탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
  • 데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
  • 검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함
profile
안녕하세요

0개의 댓글