21.07.26_머신러닝과 통계(1)

우니·2021년 7월 26일

머신러닝

목록 보기

3/3

아나콘다 화면 가리는
착한 까미 보고 가세요 👍🏽

머신러닝을 공부하기 전,
통계 개념을 먼저 알아봅시다.

모집단 : 분석의 대상이 되는 집단
예) 내가 만든 게임을 설치한 유저들
모수 : 모집단을 조사하여 얻을 수 있는 통계적인 특성치 (parameter)
모집단 분포 특성을 규정짓는 척도. 관심의 대상이 되는 모집단의 대표값
예) 전체 게임 유저의 하루 평균 플레이타임이 60분이면, 모수는 60분이 된다
표본 : 모집단의 부분집합 (sample)
예) 내가 만든 게임을 설치한 유저가 너무 많아서 100명만 뽑아서 평균 플레이 타임을 보면 표본은 뽑힌 100명의 플레이 타임이 된다

통계량 : 표본으로부터 대표값을 계산한 것
예) 위의 예시에서 100명의 하루 평균 플레이 타임이 65분이라고 하면 통계량은 65분이 된다
확률 : 어떤 결과들이 나올지는 알지만 결과들 중 어떤 결과가 나올지 모르는 현상
예) 확률형 게임에서 캐릭터 가챠를 돌렸을 때 캐릭터가 뽑히는 것은 알지만 무슨등급 캐릭터가 뽑히는지는 모른다.
확률변수 : 확률변수가 특정한 값을 가질 확률을 나타내는 함수
예) 아이돌 앨범을 10장 샀을 때 최애 멤버 포토가 나올 수 있는 확률
예) 확률형 게임에서 가챠를 돌렸을 때 SSR 등급 캐릭터가 0.012%의 확률로 나올 때, SSR등급 캐릭터를 받을 수 있는 0.012%라는 수치
확률 분포 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수
확률변수에서 나올 수 잇는 모든 값. 그 값이 나타날 확률을 나열한 표 / 그림 / 함수식
자료가 퍼져있는 모습과 함께 자료가 특정 범위에 속할 가능성을 정량적인 확률로 나타내는 수학함수

예) 내가 만든 게임을 설치한 유저들 중 임의로 100명을 뽑았을 때 과금액이 1000만원이 넘는 사람의 비율을 그림으로 나타낸 것 (그림의 넓이의 합은 1 이다)

도수 : 각 계급에 속하는 변량의 개수
예) 게임을 설치한 후 1달 이내에 100만원을 과금한 사람의 숫자 10명 / 같은 기간 내 200만원을 과금한 사람의 수 8명 같은 기간 내 300만원을 과금한 사람의 수 5명
위의 예시에서 도수는 100만원에 해당하는 사람은 10, 200만원은 8, 300만원은 5에 해당

도수분포 : 전체 자료를 몇개의 계급으로 나누고 각 계급에 속하는 도수를 조사한 내용
예) 게임을 설치한 후 1달 이내에 100만원을 과금한 사람의 숫자 10명 / 같은 기간 내 200만원을 과금한 사람의 수 8명 같은 기간 내 300만원을 과금한 사람의 수 5명

기대값 : 어떤 사건이 벌어졌을 때 이득과 그 사건이 벌어질 확률을 곱한것을 전체 사건에 대해 합한 것.
예) 무신사에 내 브랜드를 입점 후 1달 간 증가된 20대 고객의 수

편차 : 평균과의 차이. 편차를 모두 합하면 0이 됨.
분산 : 편차제곱의 평균. 분산을 구하기 위해서는 편차를 제곱해서 더해야 함
데이가 평균에 가까울 수록 편차는 작아지기 때문에 분산은 작아지고, 평균과 멀리 떨어질 수록 편차는 커지고 분산도 증가함
표준편차 : 분산의 양의 제곱근
분산이 크기가 커지면서 판단이 혼란 스러워질 수 있음. 분산에 루트를 씌우면서 다시 원래 단위로 맞추는 과정
예를들어 분산이 25라면 표준편차는 5가되고 5가 5점이 된다는 것을 알 수 있다

n번 시행 (주사위를 6번 돌릴 때 5가 나오는 확률은 1/6, 첫번째 1이 나와도 두번째 던졌을 때 1이 나올 확률에 영향을 주지 않음)

포아송분포 : 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산확률분포
예) 10시에서 11시 사이에 재난지원금사이트에 접속한 고객의 수
표본분산 : 모집단으로부터 무작위로 n개의 표본을 추출했을 때 이 n개의 표본들의 평균과 분산을 의미
불편분산 : 한 표본 안에 들어있는 분산을 계산. n-1로 나눈다. 그래야 모분산과 불편분산의 기대값이 일치하기 때문

통계에서 가설은 일정한 형식을 따른다

귀무가설과 대립가설 중 어떤 가설을 채택할지 확률적으로 따져보고 둘 중 하나를 채택한다.
귀무가설 : ~와 차이가 없다, ~의 효과가 없다, ~와 같다 라는 형식으로 설정됨
모집단의 특성에 대해 옳다고 제안하는 주장 (모집단의 모수는 00과 같다)
예) 제약회사에서 개발한 신약효과를 검정 시, 개발한 신약은 효과가 없다(차이가 없다) 가 된다

대립가설: 귀무가설이 거짓이라면 대안적으로 참이 되는 가설
예) 제약회사에서 개발한 신약 효과 검정에 대한 대립가설은 개발한 신약은 효과가 있다가 된다
귀무가설이 틀렸다고 판단 했을 때 대안적으로 채택되는 가설

데이터와 머신러닝을 배우는 일본사업 마케터입니다