시리즈

통계학

1.데이터 분석에 통계가 중요한 이유

데이터 기반의 의사결정을 잘 내릴 수 있음!분석에서 통계는 데이터를 이해하고 해석하는데 중요한 역할을 함데이터를 요약,패턴을 발견할 수 있음추론을 통해 결론을 도출화하는 과정을 도움데이터 기반의 의사결정 가능기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요!

2024년 8월 1일

2.기술통계와 추론통계

주로 평균, 중앙값, 분산, 표준편차 등을 사용데이터를 특정 대표값으로 요약데이터에 대한 대략적 특징 파악데이터 중 예외(이상치)를 대푯값 등으로 파악 어려움으로 잘 인지해야함ex) 처음 만나는 사람의 전체를 알 수 없지만 기본적인(나이, 성별, 직업, 학력, MBTI

2024년 8월 1일

3.다양한 분석 방법

평균, 중앙값이 대표적인 위치 추정 방법ex) 학생들의 시험 점수에서 평균 점수, 중간 점수를 계산파이썬 실습분산,표준펴차,범위(range) 등을 사용범위는 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포의 측도범위를 통해 데이터가 어느 정도의

2024년 8월 1일

4.모집단과 표본

관심의 대상이 되는 전체 집단es)한 국가의 모든성인모집단에서 추출한 일부. ex)그 국가의 성인 중 일부를 조사(무작위)비용과 시간전체 모집단 조사의 경우 비용 및 시간이 많이 들어 불가능하고 비효율적임표본 조사는 자원을 절약하고 유의미한 도출할 수 있는 방법임접근성

2024년 8월 2일

5.표본오차와 신뢰구간

표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이표본 크기가 클수록 표본오차는 작아짐.이는 표본이 모집단을 완벽히 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 떄라 달라질 수 있음.표본의 크기: 표본의 크기가 클수록 표본오차는 줄어듬. 더 많

2024년 8월 2일

6.정규분포

1) 정규분포란 [ ](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC)

2024년 8월 2일

7.스튜던트 t 분포

표본이 작을 때 정규분포 대신 사용!자유도가 커질 수록 정규분포에 가까워짐 (자유도란 표본의 크기와 관련이 있는 값이라고 이해)t 분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포.정규분포와 유사하지만, 표본의 크기가

2024년 8월 2일

8.카이제곱분포

카이제곱 분포는 범주형 데이터의 독립성 검정이나 적합도 검정에서 사용되는 분포자유도에 따라 모양이 달라짐상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일 때 활용ex) 성별이나 나이에 따른 선거 후보 지지율범주형 데이터 분석에

2024년 8월 2일

9.이항 분포

결과가 2개가 나오는 상활일 때 사용하는 분포이항 분포는 연속된 값이 아닌 특정한 값만을 가짐.동전을 10번 던질 때 얖면이 나오는 횟수는 0, 1, 2, ...., 10과 같은 정수이다. 따라서 이항분포가 연속적으로 그려지지 않는다.이런 이항분포처럼 연속된 값을 가지

2024년 8월 2일

10.푸아송 분포

희귀한 사건이 발생할 때 사용하는 분포람다 = 발생률이항 분포처럼 연속된 값을 가지지 않기 떄문에 이 분포도 연시 이산형 분포에 해당됨.평균 발생률 λ가 충분히 크다면 정규분포에 근사평균 발생률이란 주어진 시간이나 공간에서 사건이 몇번 발생했는지?단위 시간 또는 단위

2024년 8월 2일

11.분포 정리하기

지금까지 배웠던 분포 최종 정리!데이터 수가 엄청 많아지면 정규분포에 수렴 (중심극한정리)데이터 수가 많으면 바로 정규분포로 가정데이터가 적을 경우 각 상황에 맞는 분포를 선택특히, long tail distribution은 데이터가 많아도 정규분포가 되지 않는 분포이

2024년 8월 2일

12.A/B검정

A/B 검정 > 두 그룹(A, B)과 비교 하는게 포인트 A/B 검정이란? 위와 같은 결과는 오른쪽 사진의 디자인을 채택해야겠다 생각 할 수 있지만 위 결과는 모두 표본에 의한 결과로 모집단과 동일한 값을 가질 수 있는지 의문이 생기기 때문에 가설검정이 필요하다.

2024년 8월 4일

13.가설검정

데이터가 특정 가설을 지지하는지 검정!양쪽의 극히 작은 확률로 일어날 2.5+2.5의 5를 비율 0.05 미만이 일반적으로 유의미한 값이 된다표본 데이터를 통해 모집단의 가설을 검증하는 과정.데이터가 특정 가설을 지지하는지 평가하는 과정.귀무가설(H0)과 대립가설(H1

2024년 8월 5일

14.t검정

가설 검정의 대표적인 검정t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법.독립표본 t검정과 대응표본 t검정으로 나뉨.두 독립된 그룹의 평균을 비교동일한 그룹의 사전/사후 평균을 비교.두 클래스의 시험 성적 비교( 독립표본 t검정)다이어트 전

2024년 8월 5일

15.다중검정

여러 가설을 동시에 검정 하지만 오류가 발생할 수 있음여러 가설을 동시에 검정할 때 발생하는 문제.각 검정마다 유의수준을 조정하지 않으면 1종오류( 귀무가설이 참인데 기각하는 오류) 발생 확률 증가.본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음이 때

2024년 8월 5일

16.카이제곱검정 2

범주형 데이터의 분석에 사용한다!범주형 데이터 표본 분포가 모집단 분포와 일치하나 검정(적합도 검정)두 범주형 변수 간 독립성 검정(독립성 검정)관찰된 분포와 기대된 분포가 일치하는지 검정.p값이 높음, 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무가설이

2024년 8월 5일

17.제 1종 오류와 제 2종 오류

귀무가설이 참인데 기각하는 오류.잘못된 긍정을 의미 (아무 영향 없는데 영향이 있다 하는 것)한 단어로 위양성α를 경계로 귀무가설을 기각하기 때문에 제 1종 오류가 α만큼 발생유의수준(α)을 정함으로 제 1종 오류 제어 가능.유의수준이 0.05라면 100번 중 5번 정

2024년 8월 5일

18.단순선형회귀 (Regression)

한 개의 변수에 의한 결과를 예측하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기 ex) y = ax+b중학교 때 배웠던 1차함수를 생각하면 이해하기 쉬움!독립 변수의 변

2024년 8월 5일

19.다중선형회귀

다중선형회귀 > - 두 개 이상의 변수에 의한 결과를 예측 다중선형회귀란? 두 개 이상의 독립 변수(X1,X2,X3,n..)와 하나의 종속변수(Y)간의 관계를 모델링. 회귀식 Y = β0 + β1X1 + β2X2 + ... + βnXn 특징 여러 독립 변수의 변화를

2024년 8월 5일

20.범주형 변수

회귀에서 범주형 변수의 경우 특별히 변환을 해주어야 함수치형 데이터가 아닌 문자형 데이터로 이루어져 있는 변수가 범주형 변수ex) 성별, 지역 등이 있으며, 더미 변수로 변환하여 회귀분석에 사용.순서가 있는 범주형 변수옷 사이즈, 수능 등급과 같이 범주형 변수라도 순서

2024년 8월 5일

21.다항회귀, 스플라인 회귀

다항회귀, 스플라인 회귀 > - 데이터가 휠씬 복잡할 때 사용하는 회귀 다항회귀 독립 변수와 종속 변수 간의 관계가 아닐 때 사용, 비선형 관계를 모델링함. 고차 다항식의 경우 과적합(Overfitting)의 위험이 있음. 스플라인 회귀 독립 변수의 구간별로 다른

2024년 8월 5일

22.피어슨 상관계수

가장 대표적으로 많이 사용하는 상관계수가장 왼쪽 그래프가 피어슨 상관계수 그래프첫 번째 그래프는 파란 점들로 나타내며, x와 y의 선형 관계를 보여줌.그래프에서 점들이 직선으로 퍼져 있고, 상관계수는 0.99로 매우 강한 양의 선형 관계를 나타냄.두 연속형 변수 간의

2024년 8월 5일

23.비모수 상관계수

데이터가 정규분포를 따르지 않을 때 사용하는 상관계수가운데 그래프가 스피어만 상관계수초록색 점들로 나타내었으며, x와 y의 순위 관계를 보여줌.스피어만 상관계수는 두 변수의 순위 간의 상관관계를 측정함값은 -1에서 1 사이로 해석됨세 번째 그래프가 켄달의 타우 비선형

2024년 8월 5일

24.상호정보 상관계수

상호정보를 이용한 변수끼리의 상관계수 계산두 변수 간의 상호 정보를 측정.변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지.서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산.범주형 데이터에 대해서도 적용 가능상호정보 상관계수를 그림으로 확인보라색 점들은 x

2024년 8월 5일

25.가설검정의 주의점-재현 가능성

우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야함.동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부, 연구의 신뢰성을 높이는 중요한 요소ex) 신약이 실험실만이 아닌 실제에서도 일관된 결과가 나오기때문에 개발 가능한 것.최근 p값에

2024년 8월 5일

26.P-해킹

1) P-해킹 > - 인위적으로 p-값을 낮추지 않을 수 있도록 조심해야함 p-해킹이란? 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위 유의미한 결과를 얻기 위해 다양한 변수 시도, 데이터를 계속해서 분석하는 등의 방법을 포함. 문제점 p-해킹은 데이터 분석

2024년 8월 5일

27.선택적 보고

말 그대로 선택적으로 보고하는 것유의미한 결과만을 보고, 유의미하지 않은 결과는 보고하지 않는 행위이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴.모든 결과와 선택적으로 보고된 결과를 히스토그램으로 나타냄전체 결과와 보고된 결과의 분포가 다르면 선택적 보고의 가

2024년 8월 5일

통계학

1.데이터 분석에 통계가 중요한 이유

2.기술통계와 추론통계

3.다양한 분석 방법

4.모집단과 표본

5.표본오차와 신뢰구간

6.정규분포

7.스튜던트 t 분포

8.카이제곱분포

9.이항 분포

10.푸아송 분포

11.분포 정리하기

12.A/B검정

13.가설검정

14.t검정

15.다중검정

16.카이제곱검정 2

17.제 1종 오류와 제 2종 오류

18.단순선형회귀 (Regression)

19.다중선형회귀

20.범주형 변수

21.다항회귀, 스플라인 회귀

22.피어슨 상관계수

23.비모수 상관계수

24.상호정보 상관계수

25.가설검정의 주의점-재현 가능성

26.P-해킹

27.선택적 보고

28.자료수집 중단 시점 결정

29.데이터 탐색과 검증 분리

30.추가로 통계학을 공부하기 위한 자료 추천