book_데이터를부탁해
제가 읽은 데이터 관련 책 중에,
진짜 쓸모있는 개념들이 많은 느낌이었습니다.
대신 수학자들의 관계를 막 설명해주는데,
역사 헤이러여서인지... tmi..로 느껴진 부분들이 있었습니다.
읽으면서 하...이건 귀찮아도 적어야겠다..
또 모르면 대학 다시 다녀야해....하는 개념들 위주로 정리했습니다.
.
.
(주의)
연장 2회까지 하면서 늑장부리며 읽다가 도서관한테 뺏겨서
중간 까지의 내용임
_ #1. 무엇을 분석할지 대상과 가설을 정하는 것
가설은 크게 두 가지 종류가 있다.
맞는 것 보다 틀린 것 증명이 쉽기에, 귀무가설을 많이 씀
대립가설 : 가설이 맞다는 것을 증명하기
→ 이를 거짓으로 오판할 경우가 '제 1종 오류'
귀무가설 : 가설의 반대 상황이 틀렸다는 것을 증명함 → 내 가설이 논리적으로 맞음
→ 이를 반대로 오판할 경우가 '제 2종 오류'
.
_ #2. 참과 거짓을 구분할 기준을 정하는 것
유의수준을 정하고, 유의수준이 미만인 가설들은 모두 기각시킴
이를 줄이는 게 더 신뢰도 높은 가설
.
_ #3. 분석 내용이 기준에 부합하는 지 판단하기
두 집단 간 평균의 차이가 있는지를 비교, 검증하는 과정
?왜 평균의 차이를 구하는가?
판단의 데이터는 '표본' 이 될 수 밖에 없는데,
이 표본이 충분히 전체를 대표할 수 있을지를 증명하기 위해서
표본의 평균이 전체 수준에서 몇 번이나 차이가 나는지를 확률로 정하는 과정임
→ 데이터 양이 적기 때문에, 만약 충분한 데이터라면 z-검정을 쓰자 (Z 분포로, 집단 간 차이점만 밝혀내도 됨)
?데이터 많고 적음의 기준은 뭔데?
보통 t-검정은 항상 염두에 두고 하기.
데이터가 많다고 못하는 게 아니기 때문에
.
_3개 이상의 집단을 분석할 때, 여러 독립조건과 종속조건을 가질 때 쓰는 분석법
분산분석의 핵심 원리
(3가지 제어환경이 중요함)
→ 이에 따른 '오차' 를 비교하는 게 중요함
→ 오차보다 더 큰 영향을 주는 게 무엇인지 찾아내기
.
요지피셜
나올때마다 헷갈리는 독립변수와 종속변수
.
독립변수 : input
종속변수 : 독립변수에 영향을 받는 결과 값, ouput
요지피셜
등분산이 뭐지..
= 똑같이 흩어져 있어야 함.
.
eg) 토마토 먹어볼 때 횟수에 따라 분산 찍히는 게 다르기 때문에, 똑같이 균등하게 분포해야 함
출처 : https://brunch.co.kr/@linecard/630
모수 : 연속적일 수 있음
정규분포를 대표하는 값은 평균과 분산임,
그래서 통계에서는 이 두 가지를 모수라 부름 (대표하는 값)
.
비모수 : 연속적이지 못함
모수가 아닌 값 → 피어슨 상관분석을 하면 안됨
그럼 왜 모수가 못되는가!
1) 데이터 표본 수가 적어서
→ 근데, 데이터 홍수 시대에 이런 경우는 거의 없다
→ 우선 모수검정 수행하고, 이 결과로 다시 2차 비모수 검정을 하는 것임!
2) 데이터가 서로 독립적이여서
→ 이러면 아묻따 비모수로
그럼 어떻게 분석하나!
유의!
.
_데이터의 의미있는 맥락 찾기
두 데이터 간 거리는 N 차원에서도 구할 수 있어야 하기 때문에, 피타고라스정리가 아닌
유클리드 거리 유사도를 사용해야 함.
이외 기준에 따른 유사도 구하는 법
뭔가 무해한 개념 설명이라
지금껏 가장 이해하려 애썼던 것 같아요.
감사합니다. 익준쓰앵님 ( _ _ )