아나콘다 화면 가리는
착한 까미 보고 가세요 👍🏽
머신러닝을 공부하기 전,
통계 개념을 먼저 알아봅시다.
모집단 : 분석의 대상이 되는 집단
예) 내가 만든 게임을 설치한 유저들
모수 : 모집단을 조사하여 얻을 수 있는 통계적인 특성치 (parameter)
모집단 분포 특성을 규정짓는 척도. 관심의 대상이 되는 모집단의 대표값
예) 전체 게임 유저의 하루 평균 플레이타임이 60분이면, 모수는 60분이 된다
표본 : 모집단의 부분집합 (sample)
예) 내가 만든 게임을 설치한 유저가 너무 많아서 100명만 뽑아서 평균 플레이 타임을 보면 표본은 뽑힌 100명의 플레이 타임이 된다
통계량 : 표본으로부터 대표값을 계산한 것
예) 위의 예시에서 100명의 하루 평균 플레이 타임이 65분이라고 하면 통계량은 65분이 된다
확률 : 어떤 결과들이 나올지는 알지만 결과들 중 어떤 결과가 나올지 모르는 현상
예) 확률형 게임에서 캐릭터 가챠를 돌렸을 때 캐릭터가 뽑히는 것은 알지만 무슨등급 캐릭터가 뽑히는지는 모른다.
확률변수 : 확률변수가 특정한 값을 가질 확률을 나타내는 함수
예) 아이돌 앨범을 10장 샀을 때 최애 멤버 포토가 나올 수 있는 확률
예) 확률형 게임에서 가챠를 돌렸을 때 SSR 등급 캐릭터가 0.012%의 확률로 나올 때, SSR등급 캐릭터를 받을 수 있는 0.012%라는 수치
확률 분포 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수
확률변수에서 나올 수 잇는 모든 값. 그 값이 나타날 확률을 나열한 표 / 그림 / 함수식
자료가 퍼져있는 모습과 함께 자료가 특정 범위에 속할 가능성을 정량적인 확률로 나타내는 수학함수
예) 내가 만든 게임을 설치한 유저들 중 임의로 100명을 뽑았을 때 과금액이 1000만원이 넘는 사람의 비율을 그림으로 나타낸 것 (그림의 넓이의 합은 1 이다)
편차 : 평균과의 차이. 편차를 모두 합하면 0이 됨.
분산 : 편차제곱의 평균. 분산을 구하기 위해서는 편차를 제곱해서 더해야 함
데이가 평균에 가까울 수록 편차는 작아지기 때문에 분산은 작아지고, 평균과 멀리 떨어질 수록 편차는 커지고 분산도 증가함
표준편차 : 분산의 양의 제곱근
분산이 크기가 커지면서 판단이 혼란 스러워질 수 있음. 분산에 루트를 씌우면서 다시 원래 단위로 맞추는 과정
예를들어 분산이 25라면 표준편차는 5가되고 5가 5점이 된다는 것을 알 수 있다
확률질량함수 : 이산확률변수(셀 수 있는 범위의 확률변수)에서 특정 값에 대한 확률을 나타내는 함수
확률밀도함수 : 연속확률변수(셀 수 없는 범위의 확률변수) 가 특정 구간에 포함될 확률
이산 확률분포에서 확률 질량함수에 대응됨.
n번 시행 (주사위를 6번 돌릴 때 5가 나오는 확률은 1/6, 첫번째 1이 나와도 두번째 던졌을 때 1이 나올 확률에 영향을 주지 않음)
포아송분포 : 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산확률분포
예) 10시에서 11시 사이에 재난지원금사이트에 접속한 고객의 수
표본분산 : 모집단으로부터 무작위로 n개의 표본을 추출했을 때 이 n개의 표본들의 평균과 분산을 의미
불편분산 : 한 표본 안에 들어있는 분산을 계산. n-1로 나눈다. 그래야 모분산과 불편분산의 기대값이 일치하기 때문
모평균 : 모집단의 평균
기술통계 : 수집한 데이터를 묘사하고 설명하는 통계 기법 (평균, 중앙값, 최빈값)
추측통계 : 수집한 데이터를 바탕으로 어떤 것을 추론,예측하는 통계기법
예) 대통령 선거 예측
가설 : 알고싶은 모집단의 모수에 대한 잠정적인 주장
검정 : Testing, 시험.
통계에서 가설은 일정한 형식을 따른다