t-test는 두 집단 간의 평균을 비교하여 두 집단 간의 차이가 통계적으로 유의미한지를 평가하는 통계적 검정방법이다. 세 가지 경우가 있는데 하나는 독립포본 t-test(Independent t-test)이고, 하나는 대응표본 t-test(Paired t-test)이고 나머지 하나는 단일 표본 t-test(One Sample t-test)이다.
결론 - t-test 를 수행하여, 두 집단 간의 차이가 통계적으로 유의미한지 판단할 수 있다.

Q1 = df['price'].quantile(0.25)
Q3 = df['price'].quantile(0.75)
IQR = Q3 - Q1
lower_fence = Q1 - 1.5 * IQR
upper_fence = Q3 + 1.5 * IQR
condition1 = df['price'] >= lower_fence
condition2 = df['price'] <= upper_fence
df = df[condition1 & condition2]
- 데이터 포인터들의 평균과 표준편차를 구한다.
- 각 데이터 포인터트의 Z-score를 구한다. Z-score는 데이터 포인트가 평균과의 거리가 몇 sigma 범위에 있는지를 의미한다.
- Z-score가 특정 threshold(일반적으로 3) 이상인 값들은 이상치로 판단하고 제거한다.

우리는 자료를 수집하고 데이터를 바탕으로 어떠한 사안에 대해서 결정을한다. 하지만 데이터를 가지고 항상 옳은 결정을 하는 것은 불가능하기에 가장 오류가 최소화하는데 목적을 갖고있다. 우리가 수집한 자료는 모집단에서 추출한 표본이기 때문에 항상 오류의 가능성이있다.
그 전에 귀무가설과 대립가설에 대해서 이해가 필요하다.
H0 : 귀무가설(Null Hypothesis) - 대립가설과 상반되는 가설(효과가 없다, 차이가 없다, 서로 다르지 않다)
H1 : 대립가설(Alternative Hypothesis) - 확인하고 싶은 연구와 관심의 대상이 되는 가설(효과가 있다, 차이가 있다, 서로 다르다)
통계적 오류에는 1종 오류와 2종 오류 이렇게 두 가지가 있다.
상황 : 한 학교에서 새로운 교육 프로그램이 학생들의 수학 시험 점수를 향상시킬 수 있는지 확인해보고자 한다.
귀무가설(H0) : 새로운 교육 프로그램을 받은 학생들의 평균 점수는 기존 프로그램을 받은 학생들의 평균 점수와 같다.
대립가설(H1) : 새로운 교육 프로그램을 받은 학생들의 평균 점수는 기존 프로그램을 받은 학생들의 평균 점수보다 높다.

귀무가설(H0)이 실제로 참인데도 불구하고 이를 기각하는 오류를 의미한다. 이는 통계적으로 유의한 차이가 없는 경우에도 귀무가설을 잘못 기각하여, 마치 차이가 있는 것처럼 결론을 내리는 상황이다.
예시 : 새로운 약물이 기존 약물보다 효과가 없는데, 실험 결과로 인해 이 새로운 약물이 더 효과가 있다고 결론을 내리는 경우.
확률 : 제 1종 오류의 발생 확률은 유의수준(α)으로 나타내며, 보통 0.05(5%)로 설정하는 경우가 많다. 이는 귀무 가설이 참일 때 5%의 확률로 잘못된 결론을 내릴 수 있음을 의미.
귀무가설이 거짓인데도 불구하고 이를 기각하지 않는 오류를 의미합니다. 즉, 실제로 대립가설이 참이지만, 귀무가설을 기각하지 못해 차이가 없는 것으로 결론을 내리는 상황이다.
예시 : 새로운 약물이 기존 약물보다 효과가 있는데, 실험 결과로 인해 이 새로운 약물이 효과가 없다고 결론을 내리는 경우.
확률 : 제 2종 오류의 발생은 확률은 β로 나타내며, 이 값이 클수록 제2종 오류를 범할 가능성이 높아집니다. 제2종 오류를 줄이기 위해서는 표본 크기를 늘리거나, 실험 설계를 개선할 필요가 있음
P-value 란 간단히 말해서 어떤 사건이 우연히 발생할 확률이다. 앞서 말햇던 것처럼 통계적 가설 검정은 모집단의 일부인 표본의 통계량을 사용하는 과정이기 때문에 확률적 오류가 발생할 수 밖에 없다. 귀무가설을 기각할 수 있는지를 판단하기 위해, 가설검정에 있어 귀무가설의 채택/기각 중 하나를 결정할 때 오류에 대한 내용이 있어야 하는데 이 때 P-value 는 를 사용한다.
예를 들어, p값이 0.05보다 작으면 우연히 일어날 확률이 5%보다 작다라는 의미이다. 이 뜻은 사건이 우연히 일어날 가능성이 거의 없다는 것과 같다.

상황 : 한 연구자가 새로운 다이어트 프로그램이 체중 감량에 효과가 있는지를 테스트한다. 실험군과 대조군의 체중변화 비교
귀무가설(H0) : 다이어트 프로그램은 체중 감량에 효과가 없다. (두 그룹간의 체중 변화에 차이가 없다.)
대립가설(H1) : 다이어트 프로그램은 체중 감량에 효과가 있다. (두 그룹간의 체중 변화에 차이가 있다.)
결론 : 실험군들의 체중 감소량이 더 컸다. 통계적 검증을 통해 p-value = 0.03. 설정된 유의수준(0.05) 보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택할 수 있다. 즉, 다이어트 프로그램이 체중 감량에 효과가 있다고 결론.
데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상) 어떻게 해결해야할까?
주성분 분석을 통해 데이터의 분산을 최대한 보존하면서 주요 성분을 추출하여 차원을 축소한다.
고차원 데이터를 저차원으로 변환하여 데이터의 군집 구조를 시각화하는 데 유용하다.
비선형 차원 축소 기법
밀도 기반 클러스터링 기법
- DBSCAN : 밀도 차이를 기반으로 클러스터를 형성하여 비선형적이고 복잡한 데이터 구조를 효과적으로 처리한다.