
평균: 86.8, 중앙값: 88.5분산: 33.36, 표준편차: 5.775811631277461, 범위: 19공부 시간과 시험 점수 간의 상관계수: 1.0위처럼 상관계수 행렬이 반환됨. 따라서 0, 1, 즉, 0행 1열로 인덱싱을 하여 상관계수 (1.)만 도출.데이터

정의: 데이터가 특정 값 중심으로 흩어진 형태를 나타내는 통계적 개념. 경험적인 데이터의 형태분류: 이산확률분포와 연속확률분포장점데이터의 요약(중앙값, 평균, 분산) 등에 대한 수식 표현 가능모집단을 추정하는 가설의 기반각 분포는 특정 확률 함수를 가지며, 이를 통해

Scipy science + python의 의미 공학, 사회과학 등에서 자주 사용하는 기초통계 모듈과 함수를 모아놓은 라이브러리 자주 쓰는 함수 대부분 'stats' 모듈 쪽에 분표 관련 함수들이 존재. scipy.stats scipy.stats.norm - Sc

모집단: 관심의 대상이 되는 집단표본: 모집단에서 추출한 일부비용과 시간접근성표본의 대표성: 잘 설계된 표본은 모집단의 특성을 반영할 수 있을 뿐 아니라 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함할 수 있다.데이터 처리의 용이성데이터 품질

표본에서 계산된 통계량과 모집단의 진짜 값 사이의 차이표본의 크기가 클수록 표본 오차는 작아짐.표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생.표본의 크기와 표본 추출 방법 등에 따라 달라질 수 있음.표본의 크기: 클수록 표본 오차는 줄어든다. 더 많은 데이터를

종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려있는 분포.평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소.표준편차는 분포의 퍼짐 정도를 나타냄.대부분의 데이터가 평균 주위에 몰려있으며, 평군에서 멀어질수록 빈도가 줄어듦.np.ran

대부분의 데이터가 분포의 한쪽 끝에 몰려있고, 반대쪽으로는 긴 꼬리가 이어지는 형태의 분포.정규분포와 달리 비대칭적파레토 분포, 지프의 법칙, 멱함수 등이 긴 꼬리 분포에 해당소득 분포, 웹사이트 방문자 수 등에서 관찰.np.random.exponential(scale

⭐️표본이 작을 때 정규분포 대신 사용⭐️검정색이 정규분포.자유도가 커질수록 정규분포에 가까워짐. (자유도: 표본의 크기와 관련이 있는 값. 아래 참조)모집단의 표준편차를 알 수 없고, 표본의 크기가 작은 경우(일반적으로 30 미만)에 사용 정규분포와 유사하지만, 표본

⭐️독립성 검정이나 적합도 검정에 사용되는 분포k는 자유도.k가 커질수록 정규분포에 가까워짐.범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포자유도에 따라 모양이 달라짐상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 '완벽하게 서로 다른 질적 자료'일

📍결과가 두 개가 나오는 상황일 때 사용하는 분포성공/실패와 같은 두 가지 결과만 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포독립적인 시행이 n번 반복되고, 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링.성공 확률이 p라고 할 때 성공 횟수

📍희귀한 사건이 발생할 때 사용하는 분포단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링평균 발생률 $\\lambda$를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지 나타냄.이항분포와 마찬가지로 푸아송 분포도 이산형 분포평균 발생률 $\\la

A안과 B안 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자를 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교.일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특
표본 데이터를 통해 모집단의 가설을 검증하는 과정데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설 $H_0$과 대립가설 $H_1$을 설정하고 귀무가설을 기각할지를 결정데이터 분석 시 두 가지 전략을 취할 수 있음확증적 자료 분석: 미리 가설을 세운 다음 가설을 검증
두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정p-value를 통해 유의성을 확인두 독립된 그룹의 평균을 비교ex) 두 클래서의 시험 성적 비교동일한 그룹의 사전/사후 평균 비교ex) 다이어트 전후 체중 비교결과: T-Statistic: -0.081627
여러 가설을 동시에 검정할 때 발생하는 문제각 검정마다 유의수준을 조정하지 않으면 1종 오류 발생 확률 증가1종 오류: 귀무가설이 참인데 기각하는 오류보정 방법: 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등.유의수준(α)은 우리가 1종 오류를 허용하는 최
범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정 $\\rightarrow$ 적합도 검정두 범주형 범주 간의 독립성 검정 $\\rightarrow$ 독립성 검정관찰된 분포와 기대된 분포가 일치하는지 검정p값이 높으면 데이터가 귀무 가설에 적합p값이 낮으면 데이

이미지 출처 - Pritha Bhandari귀무가설이 참인데 기각하는 오류실제로 음성인 것을 양성으로 판정하는 경우 (measured to be positive but actually negative)위양성$\\alpha$를 경계로 귀무가설을 기각하기 때문에 제1종 오

하나의 독립변수 X와 하나의 종속변수 Y 간의 관계를 직선으로 모델링하는 방$$Y=\\beta_0+\\beta_1X$$독립변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 비선형적인 경우 부적

두 개 이상의 독립변수와 하나의 종속변수 간의 관계를 모델$$Y=\\beta_0+\\beta_1X_1+\\beta_2X_2 +...+\\beta_nX_n$$여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측종속 변수에 영향을 미치는 여러 독립 변수가 있을 때

수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수옷의 사이즈 (S, M, L, XL, ...)성적 등급 (1등급, 2등급 ...)각 문자를 순서가 반영되는 숫자로 변환해도 문제가 없다ex) S = 0, M = 1, L = 2, XL = 3, ...성별 (여

독립 변수와 종속 변수간의 관계가 선형이 아닐 때, 독립 변수에 다항식을 사용하여 종속 변수 예측데이터가 곡선적 경향을 따를 때 사용.비선형 관계를 모델링고차 다항식의 경우 과적합(overfitting)의 위험이 있음.독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한

모수를 특정한 수치로 표현하는 것.ex) 남성의 평균 키는 170cm이다.추정 값에 대한 신뢰도를 제시하면서 모수를 추정하는 방법.ex) 남성의 평균 키는 0~200cm이다. (정답이지만 명확하지 않음) 남성의 평균 키는 16cm부터 177cm에 있을 확률이 95%이다

t 분포 n이 30보다 충분히 큰 경우는 중심극한정리의 가정을 통해 모평균의 추론을 전개. 하지만 데이터의 수가 작은 경우에는 중심극한정리가 제한됨. 정의 > $$t=\frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}} >$$ 모표준편차 $

부트스트랩(Bootstrap)으로 여러 개의 데이터셋을 생성하고 결과를 집계(Aggregate)대표적인 부트스트랩핑 적용 모델 = Random Forest기존 학습 데이터로부터 랜덤하게 복원추출하여 동일한 사이즈의 표본을 여러 개 구하는 것

두 연속형 변수 간의 선형 관계를 측정하는 지표\-1에서 1 사이의 값을 가지며1은 완전한 양의 선형 관계1은 완전한 음의 선형 관계0은 선형 관계가 없음가장 왼쪽 그래프가 피어슨 상관계수 그래프!X와 Y의 선형 관계를 보여줌그래프에서 점들이 직선적으로 퍼져있으며, 상

데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있음피어슨 상관계수는 대표적인 비모수 상관계수두 번째가 스피어만

두 변수 간의 상호 정보 측정변수 간의 정보 의존성을 바탕으로 비선형 관계 탐지서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산범주형 데이터에 대해서도 적용 가능상호 정보값이 0.90으로 이는 두 변수 사이의 강한 비선형 의존성을 의미두 변수가 범주형 변수일

동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지의 여부.연구의 신뢰성을 높이는 중요한 요소최근 p-value에 대한 논쟁이 두드러지고 있음'p값을 사용하지 않는 것이 좋다''유의수준을 0.05에서 다른 값으로 변경하는 것이 좋다'가설 검정 원리 상의 문제나 가

새로운 고혈압약을 개발하는 제약사가 있습니다. 식약처는 국민의 건강을 고려하여 승인을 해야합니다. 고혈압을 개발한 제약사는 자신들의 개발한 약이 엄청난 효과가 있다라고 주장하지만 글쎄? 이 과정에서 일어 날 수 있는 통계적 오류에 대해서 알아봅시다.식약처는 엄격한 허
퇴직한 A씨는 상점을 매수하려는 상황입니다. 전 주인이 월~토에 대한 고객의 방문비율에 대한 정보를 전달했습니다. 이를 확인하고자 매일 실 고객을 세보았습니다. 전 주인이 말하는 비율이 맞을까요?위 형태의 가설 검정을 적합도 검정 Goodness of fit이라고 함.

sklearn의 linear_model이 머신러닝의 관점이라면 statsmodel은 좀 더 statisticalstatsmodels.api : statsmodels를 편리하게 불러오는 모듈sm.add_constant : $\\beta_0$ 추가model = sm.OLS

z검정 데이터가 정규분포를 따를 때 (모수적 검정) 표본 데이터가 충분히 클 때 (N >= 30) 모집단의 분산 혹은 표준편차를 알고 있을 때 t검정 데이터가 정규분포를 따를 때 (모수적 검정) 표본 데이터가 작을 때 (N < 30) 모집단의 분산 혹은 표준편차를 모

데이터를 수집할 때 인위적인 개입의 유무에 따라 관찰 연구와 실험 연구로 나눈다.연구자 혹은 분석가가 직접적으로 개입하지 않고 자연스럽게 발생하는 데이터를 관찰하여 분석하는 연구 설계흡연자와 건강 상태를 비교하는 연구웹사이트에서 사용자들이 자발적으로 클릭한 광고의 효과

회사 주식에 투자하고자 합니다. 하지만 보수적인 나는 변동성이 크지 않은 회사를 골라 안정적인 투자를 희망합니다. 이를 위해 2가지 회사로 좁혔고 A,B회사의 6일간 주가 데이터를 수집하였습니다. Numpy 혹은 Pandas를 이용하여 회사의 변동계수를 구해봅시다.cv