# 통계

348개의 포스트

TIL10(220915) : 미니 회귀분석 프로젝트

화해 어플의 리뷰 토픽을 기반으로 독립변수를 설정하여, 평점에 영향을 미치는 변수를 찾아보고자 했다.주제를 좁히기 위해 대상은 '토너' 제품으로 한정했다.종속변수(y) : 각 상품의 별점독립변수(x) : 제형(액상/패드), 흡수력(1~5), 보습력(1~5), 향(1~5

2022년 9월 15일
·
0개의 댓글
·

통계_9 추정_모비율

모비율의 추정 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면 ‘1’ 아니면 ‘0’일 때, 1의 속성을 갖는 것의 개수를 X라고 하면 X ~ B(n,p) 임 이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 함 ($\hat p

2022년 9월 11일
·
0개의 댓글
·
post-thumbnail

[통계] k-평균 클러스터링

데이터를 $k$개의 군집으로 분류하는 방법클러스터의 중심 $\\bar{x_k}, \\bar{y_k}$는 다음처럼 결정된다.클러스터끼리는 최대한 멀어지도록 조정한다.이를 클러스터 내 제곱합 또는 SS라고 한다.SS가 최소가 되도록 군집을 분류하는 것이 k-평균 알고리즘이

2022년 9월 8일
·
0개의 댓글
·
post-thumbnail

[통계] 비지도학습

레이블링 과정 없이 데이터를 주고 모델을 훈련하는 과정데이터의 차원을 줄이는 데 사용두 변수 $X_1, X_2$에 대해 두 주성분 $Z_i$가 있다고 하자.이 때 $w$를 각각 성분의 부하라고 한다.(원래 변수를 주성분으로 변환할 때 사용한다)첫 주성분 $Z_1$은 전

2022년 9월 8일
·
0개의 댓글
·

[통계] 불균형 데이터 다루기

데이터가 너무 적을 때, 예측 모델링 성능을 향상할 방법을 살펴보자.다수에 해당하는 데이터 클래스에서 과소표본추출을 통해 0과 1의 비율을 맞출 수 있다.이는 다수의 클래스는 중복된 데이터가 많을 것이다라는 개념인데, 생각해보면 당연하게 더 많은 쪽에 치우친 결과가 주

2022년 8월 31일
·
0개의 댓글
·
post-thumbnail

[통계] 분류 모델 평가

가장 간단한 분류 모델 평가는 정확도를 이용한 방법이다.$$정확도=\\frac{\\sum{참\\,양성+\\sum참\\,음성}}{표본크기}$$직관적으로 이해할 수 있다.분류 결과를 가장 잘 나타내는 행렬정밀도는 예측된 양성 결과의 정확도.$$정밀도=\\frac{\\sum

2022년 8월 31일
·
0개의 댓글
·

[통계] 로지스틱 회귀

다중선형회귀와 비슷하지만, 결과가 이진형 변수이다.로짓(logit) : $\\pm\\infin$ 범위에서 어떤 클래스에 속할지 확률을 정하는 함수오즈(odds) : 실패(0)에 대한 성공(1)비율로그 오즈 (log odds) : 변환 모델(선형)의 응답변수, 이 값으로

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

[통계] 선형판별분석 (LDA)

트리, 로지스틱 회귀 등의 정교한 기법이 발명된 후로 많이 사용되지는 않지만, 주성분분석과 같은 분야에서 아직도 사용된다.데이터를 어느 한 축에 사영시켜 그룹이 더 잘 구분되는 직선을 찾는 것을 목표로 한다.아래 이미지에서는 LD2 축보다 LD1 축을 골라 분류하는 것

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

[통계] 나이브 베이즈 알고리즘

베이즈 정리. 이미지 출처 : 링크분류 알고리즘의 하나로, 주어진 결과에 대해 예측변숫값을 관찰할 확률로 예측변수 -> 결과를 예측하는 알고리즘이다.영단어 Naive의 뜻은 "순진한, 단순한, 천진난만한" 등의 뜻이 있다. 이는 원래 베이즈 분류가 빡빡하게 "모든 예측

2022년 8월 30일
·
0개의 댓글
·

[Week2] (데이터 사이언스란?) 04. 모델링

💡 모델링(Modeling) : 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정 근본적인 개념은 수학적인 모델과 통계적인 모델의 개념에서 나온다. 데이터 사이언스에 사용하는 모델은 통계모델일 수도 있고, 데이터를 분석하는 어떤 시스템일 수도 있다.

2022년 8월 29일
·
0개의 댓글
·

가우스 함수와 정규분포

https://en.wikipedia.org/wiki/Gaussian_function수학적으로 가우시안 함수는 아래의 기본 형식과 실수 $a, b,$ 그리고 0이 아닌 $c$의 파라미터를 가진 변형으로 나타낸다.기본형$$f(x) = exp(-x^2)$$파라미터

2022년 8월 26일
·
0개의 댓글
·

최대 우도 추정법(MLE)

Maximum Likelihood Estimation한 바둑통에 검은돌, 흰 돌이 섞여 합쳐서 총 500개의 돌이 있는데, 50번의 돌을 꺼내니 검은 돌이 40개, 흰 돌이 10개 나왔다. 그렇다면 바둑통에는 몇 개의 검은 돌이 있는지 최대 우도 추정법(MLE)을 통해

2022년 8월 26일
·
0개의 댓글
·
post-thumbnail

통계 복습(2)

확률과 확률분포

2022년 8월 23일
·
0개의 댓글
·

통계 복습 (1)

통계 : 사람, 사물, 사건, 사회적 현상 혹은 자연 현상 등을 조사하여 수집된 각종 데이터의 요약. 집단현상에 대한 구체적인 양적 기술을 반영하는 숫자. 통계학: 산술적 방법을 기초로 하여 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한

2022년 8월 23일
·
0개의 댓글
·
post-thumbnail

[통계] 선형회귀

0. 선형회귀란? 변수 X와 Y의 관계를 정의하고, 그로부터 새로운 X에 대한 Y값을 예측하는 모델을 훈련하는 과정. 이는 문제-답이 주어져야 하는 지도 학습 (supervised learning)에 속한다. 또 데이터 과학과 통계학 사이의 중요 연결 고리는 이상 검출

2022년 8월 22일
·
0개의 댓글
·
post-thumbnail

[통계] 검정력, 효과크기와 표본크기

🖤 검정력 > 검정력(檢定力, statistical power)는 대립가설이 사실일 때, 이를 사실로서 결정할 확률이다. -위키백과 2종 오류가 "대립가설이 사실일 때, 이를 기각할 확률"이므로 $1-2종오류\,확률$이 된다. 🚨 영향을 미치는 요인 유의수준 (

2022년 8월 22일
·
0개의 댓글
·

상관 분석

피어슨, 스피어만, 켄달 상관계수를 갖고 분석하는 것을 상관 분석이라고 한다.

2022년 8월 21일
·
0개의 댓글
·

A/B 테스트, MVP와 집단 간 비교

A/B 테스팅, MVP, 그리고 집단 간 비교(T-검정, 분산 분석, 카이제곱 검정)에 대해 공부했다.

2022년 8월 18일
·
0개의 댓글
·

[통계] 멀티암드 밴딧 알고리즘 (Multi Armed Bandits, MAB)

N개의 슬롯머신이 있고, 각각의 슬롯머신은 수익률이 다르다고 하자.그렇다면 어느 머신에 돈을 걸고 암(슬롯머신의 손잡이)를 내려야 할까?슬롯머신을 밴딧(강도), 손잡이를 암이라고 하고, 성공하기 위해서는 어느 슬롯머신을 노려야 하는지 구하는 알고리즘이다.A, B, C

2022년 8월 18일
·
0개의 댓글
·
post-thumbnail

[통계] 카이제곱검정(chi-squared test)

χ 카이제곱분포 이전에 카이제곱분포를 다루면서 분포와 검정에 대해 정리한 글이 있다. [통계] 카이제곱분포 (Chi-Squared Distribution) 간략하게 말하면, 자유도만큼의 샘플을 무작위로 뽑아 모두 제곱해서 더한 통계량의 분포가 카이제곱분포이다. 이는

2022년 8월 18일
·
0개의 댓글
·