21.07.26_머신러닝과 통계(1)

우니·2021년 7월 26일
0

머신러닝

목록 보기
3/3

아나콘다 화면 가리는
착한 까미 보고 가세요 👍🏽

머신러닝을 공부하기 전,
통계 개념을 먼저 알아봅시다.



통계 개념

  • 모집단 : 분석의 대상이 되는 집단
    예) 내가 만든 게임을 설치한 유저들

  • 모수 : 모집단을 조사하여 얻을 수 있는 통계적인 특성치 (parameter)
    모집단 분포 특성을 규정짓는 척도. 관심의 대상이 되는 모집단의 대표값
    예) 전체 게임 유저의 하루 평균 플레이타임이 60분이면, 모수는 60분이 된다

  • 표본 : 모집단의 부분집합 (sample)
    예) 내가 만든 게임을 설치한 유저가 너무 많아서 100명만 뽑아서 평균 플레이 타임을 보면 표본은 뽑힌 100명의 플레이 타임이 된다



  • 통계량 : 표본으로부터 대표값을 계산한 것
    예) 위의 예시에서 100명의 하루 평균 플레이 타임이 65분이라고 하면 통계량은 65분이 된다

  • 확률 : 어떤 결과들이 나올지는 알지만 결과들 중 어떤 결과가 나올지 모르는 현상
    예) 확률형 게임에서 캐릭터 가챠를 돌렸을 때 캐릭터가 뽑히는 것은 알지만 무슨등급 캐릭터가 뽑히는지는 모른다.

  • 확률변수 : 확률변수가 특정한 값을 가질 확률을 나타내는 함수
    예) 아이돌 앨범을 10장 샀을 때 최애 멤버 포토가 나올 수 있는 확률
    예) 확률형 게임에서 가챠를 돌렸을 때 SSR 등급 캐릭터가 0.012%의 확률로 나올 때, SSR등급 캐릭터를 받을 수 있는 0.012%라는 수치

  • 확률 분포 : 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수
    확률변수에서 나올 수 잇는 모든 값. 그 값이 나타날 확률을 나열한 표 / 그림 / 함수식
    자료가 퍼져있는 모습과 함께 자료가 특정 범위에 속할 가능성을 정량적인 확률로 나타내는 수학함수

예) 내가 만든 게임을 설치한 유저들 중 임의로 100명을 뽑았을 때 과금액이 1000만원이 넘는 사람의 비율을 그림으로 나타낸 것 (그림의 넓이의 합은 1 이다)



  • 도수 : 각 계급에 속하는 변량의 개수
    예) 게임을 설치한 후 1달 이내에 100만원을 과금한 사람의 숫자 10명 / 같은 기간 내 200만원을 과금한 사람의 수 8명 같은 기간 내 300만원을 과금한 사람의 수 5명
    위의 예시에서 도수는 100만원에 해당하는 사람은 10, 200만원은 8, 300만원은 5에 해당
  • 도수분포 : 전체 자료를 몇개의 계급으로 나누고 각 계급에 속하는 도수를 조사한 내용
    예) 게임을 설치한 후 1달 이내에 100만원을 과금한 사람의 숫자 10명 / 같은 기간 내 200만원을 과금한 사람의 수 8명 같은 기간 내 300만원을 과금한 사람의 수 5명
  • 평균 : 자료 전체의 경향성을 대표할 수 있는 값. 자료의 총 합 /자료의 총 개수
    예) 전체 사원 800명의 평균 연봉
  • 기대값 : 어떤 사건이 벌어졌을 때 이득과 그 사건이 벌어질 확률을 곱한것을 전체 사건에 대해 합한 것.
    예) 무신사에 내 브랜드를 입점 후 1달 간 증가된 20대 고객의 수


  • 편차 : 평균과의 차이. 편차를 모두 합하면 0이 됨.
    분산 : 편차제곱의 평균. 분산을 구하기 위해서는 편차를 제곱해서 더해야 함
    데이가 평균에 가까울 수록 편차는 작아지기 때문에 분산은 작아지고, 평균과 멀리 떨어질 수록 편차는 커지고 분산도 증가함

  • 표준편차 : 분산의 양의 제곱근
    분산이 크기가 커지면서 판단이 혼란 스러워질 수 있음. 분산에 루트를 씌우면서 다시 원래 단위로 맞추는 과정
    예를들어 분산이 25라면 표준편차는 5가되고 5가 5점이 된다는 것을 알 수 있다

  • 확률질량함수 : 이산확률변수(셀 수 있는 범위의 확률변수)에서 특정 값에 대한 확률을 나타내는 함수

  • 확률밀도함수 : 연속확률변수(셀 수 없는 범위의 확률변수) 가 특정 구간에 포함될 확률
    이산 확률분포에서 확률 질량함수에 대응됨.



  • 정규분포 : 가우시안 분포라고도 함. 연속 확률분포의 하나.
    #평균을 중심으로 좌, 우의 값이 대칭인 곡선을 그림
  • 이항분포 : 연속된 n번 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산확률분포 (이산 확률 변수가 가지는 확률분포)

n번 시행 (주사위를 6번 돌릴 때 5가 나오는 확률은 1/6, 첫번째 1이 나와도 두번째 던졌을 때 1이 나올 확률에 영향을 주지 않음)

  • 포아송분포 : 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산확률분포
    예) 10시에서 11시 사이에 재난지원금사이트에 접속한 고객의 수

  • 표본분산 : 모집단으로부터 무작위로 n개의 표본을 추출했을 때 이 n개의 표본들의 평균과 분산을 의미

  • 불편분산 : 한 표본 안에 들어있는 분산을 계산. n-1로 나눈다. 그래야 모분산과 불편분산의 기대값이 일치하기 때문



  • 모평균 : 모집단의 평균

  • 기술통계 : 수집한 데이터를 묘사하고 설명하는 통계 기법 (평균, 중앙값, 최빈값)

  • 추측통계 : 수집한 데이터를 바탕으로 어떤 것을 추론,예측하는 통계기법
    예) 대통령 선거 예측

  • 가설 : 알고싶은 모집단의 모수에 대한 잠정적인 주장

  • 검정 : Testing, 시험.

통계에서 가설은 일정한 형식을 따른다

  • 귀무가설과 대립가설 중 어떤 가설을 채택할지 확률적으로 따져보고 둘 중 하나를 채택한다.
    귀무가설 : ~와 차이가 없다, ~의 효과가 없다, ~와 같다 라는 형식으로 설정됨
    모집단의 특성에 대해 옳다고 제안하는 주장 (모집단의 모수는 00과 같다)
    예) 제약회사에서 개발한 신약효과를 검정 시, 개발한 신약은 효과가 없다(차이가 없다) 가 된다
  • 대립가설: 귀무가설이 거짓이라면 대안적으로 참이 되는 가설
    예) 제약회사에서 개발한 신약 효과 검정에 대한 대립가설은 개발한 신약은 효과가 있다가 된다
    귀무가설이 틀렸다고 판단 했을 때 대안적으로 채택되는 가설
profile
데이터와 머신러닝을 배우는 일본사업 마케터입니다

0개의 댓글