chapter 3 D-3 TIL

홍유택·2025년 1월 20일

Chapter 3

5.1 피어슨 상관계수

그림 = x와 y의 선형 관계를 보여줌

피어슨 상관계수

두 연속형 변수 간의 선형 관계를 측정하는 지표
-1 에서 1 사이의 값을 가지며
1은 완전한 양의 선형 관계
-1은 완전한 음의 선형 관계
0은 선형 관계가 없음을 의미

피어슨 상관계수 사용 시기

선형적인 관계 예상(ex 공부 시간과 시험 점수 간의 상관관계 분석)
비선형 관계에선 사용 불가

0으로 나오는 데이터가 중요
피어슨 상관계수가 아닐 뿐, 관계가 있을수도있다.

5.2 비모수 상관계수

데이터가 피어슨과 같이 정규분포를 따르지 않을 때 사용하는 상관계수
x와y의 순위 관계를 나타냄

데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 떄 사용
대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있음.

스피어만 상관계수

두 변수의 순위 간의 일관성을 측정

켄달의 타우 상관계수

순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산.
ex) 키와 몸무게가 같이 커지면 일치 쌍에 해당, 서로 반대될 때 불일치 쌍에 해당, 이들의 개수 비율로 상관계수를 결정

비모수 상관계수가 쓰일 때

☑️ 데이터의 분포에 대한 가정을 하지 못할 때

☑️ 순서형 데이터에서도 사용하고 싶을 때

5.3 상호정보 상관계수

상호정보를 이용한 변수끼리의 상관계수 계산!
범주형데이터에서도 사용이 가능

가. 상호정보 상관계수 (Mutual Information Coefficient)

두 변수 간의 상호 정보를 측정
변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지
서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산

- 범주형 데이터에 대해서도 적용 가능

상호정보 상관계수를 그림으로 확인해보기
- 보라색 점들은 X와 Y 간의 비선형 관계를 나타냄
- 상호 정보 값은 0.90으로 표시되어 있으며, 이는 두 변수 간의 강한 비선형 의존성을 의미

가설검정의 주의점

6.1 재현 가능성

우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야 합니다!

p값을 어떻게 사용하느냐에 따라서 재현 가능성이 가능해지냐, 불가능해지냐가 정해진다
최근 p값을 0.05 가 아닌 0.005까지 낮춰야한다는 논문도 나오는 중
가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생

실험 조건을 동일하게 조성하기 어려움

완전 동일하게 다시 똑같은 실험을 수행하는 것이 쉽지 않음
가설검정 자체도 100% 검정력을 가진 것이 아니기 때문에 오차가 나타날 수 있음

6.2 p-해킹

1) p-해킹이란 무엇인가?
☑️ p-해킹
- 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
- 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함
  
  ☑️ 문제점
- p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴
2) p-해킹은 언제 조심해야하는가?
☑️ 여러 가설 검정을 시도 할 때
- 여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심
- p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심
- 데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심
- 즉, 결과를 보며 데이터 개수를 늘려서는 안됨
- 다양한 상황 중에서 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심
- 다양한 변수를 건드리며 유리한 결과가 나올 때 다시 처음 부터 가설을 그 결과에 맞게 세우는 것
- 즉, 마음에 드는 상황만 골라서 보고해서도 안됨. 모든 결과를 다보고하거나 더 엄격한 추가실 험을 수행
- 가능한 가설을 미리 세우고 검증하는 가설검증형 방식으로 분석을 해야 하며 만약 탐색적으로 분석한 경우 가능한 모든 변수를 보고하고 본페로니 보정과 같은 방법을 사용해야 함

6.3 선택적 보고

말 그대로 보고하는 것

유의미한 결과만 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위.

선택적 보고 주의할점

유의미한 결과만 공개 할 때
결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때

6.4 자료수집 중단 시점 결정

원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심

자료수집 중단 시점 결정 :
데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어트림.

6.5 데이터 탐색과 검증 분리

검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함

☑️ 데이터 탐색과 검증 분리

데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임

탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함

홍유택

안녕하세요

이전 포스트

Chapter3 D-2 TIL

다음 포스트