통계와 확률을 다시 배우라고요?

고등학교 때 이과를 나온 사람으로 모호하게 이해를 하고 넘어간 확률과 통계... 벌써 10년도 넘었는데 다시 배워야 한다니... 어쩌긴 까라면 까야지 4/23~4/25 3일간 배웠고 실 강의 시간은 2일 정도 나머지 1일은 인강으로 실시했습니다.

4/23 오전 수업

순열, 조합, 조건부 확률, 독립 사건, 종속사건

1일차 오전에 배운 내용들, 고등학교 때 배운 내용들이라 볼수록 새록새록 생각날 듯 말듯 한게 이상한 기분이었습니다. 예시로 강사님이 문제를 몇개 보여주면 답이 생각나는데 왜 그런지 과정을 많이 줄인 느낌 정석을 3번씩 풀면 생기는 능력인가 그 중 제일 헷갈린 건 조건부 확률 정도? 여기까지는 어렵지 않다고 느꼈고 나름 추억 돋았습니다.

4/23 오후 수업

변수

우리가 스포츠 경기를 보면 맨날 나오는 변수(날씨, 컨디션 경기장 상태,...)의 종류를 배웠다. 생각보다 많은 종류가 있어서 이렇게 해야 통계하는구나 생각했습니다. 종류는 다음과 같습니다.

  • 독립변수 : 다른 변수에 영향을 주는 변수
  • 종속변수 : 독립변수에 의해 변화되는 변수
  • 매개변수 : 독립변수 이외의 변수로 통제되야하는 변수

속성에 따라 나누면 질적변수와 양적변수로 구분

  • 질적변수 : 분류를 위하여 용어로 정의되는 변수
    • 비서열 질적변수 : 서열이 정해질 수 없는 변수 ex) 성별, 인종
    • 서열 질적 변수 : 서열적으로 구분할 수 있는 변수 ex) 초졸, 중졸, 대졸
  • 양적변수 : 양의 크기를 나타내기 위하여 수량으로 표시되는 변수
    • 연속변수 : 주어진 범위 내에서 어떤 값도 가질 수 있는 변수 ex) 체중, 키
    • 비변속 변수 : 특정 수치만을 가질 수 있는 변수 ex) IQ, 만 나이

척도

이 변수들을 정리하면 데이터가 되는 것이고 데이터를 가공하기 위해서는 일정한 기준이 있어야 합니다. 이 기준을 척도(Scales)가 되는 것이고 척도는 크게 2가지로 구분합니다.

  • 범주형 척도 : 데이터들을 구분지어 나눌수 있는 척도
    • 명목척도 : 수나 순서와 관계업시 이름나 붙여지는 척도 ex) 서울/세종/부산/대구/인천/...
    • 서열척도 : 숫자나 연산과는 관련이 없으나 순서를 구분할 수 있는 척도 ex) 금/은/동
  • 연속형 척도 : 연속하는 속성의 데이터를 연구나 조사의 목적에 맞게 구분한 척도
    • 등간척도 : 측정한 자료들을 대상으로 합과 차가 가능한 척도 ex) 온도, IQ
    • 비율척도 : 등간척도의 성질 + '없다'의 개념인 0의 값도 가질수 있는 척도 ex) 몸무게, 매출액

이 외에 모집단, 분산, 정규분포 등 고등학교 수학정도의 개념을 배웠는데 역시 python에서 사용할 수 있는 코드를 배우는게 제일 재미있었습니다.

후일담

원래 좀더 이해가 되고 잘 알게 되면 포스트하려고 하는 편인데 statistics는 수업을 듣자마자 해당 내용을 블로그에 작성하라 해서 하긴 합니다...
국비로 진행되는 교육이라고는 하지만 안그래도 빡빡한 과정에서 Statistics를 3일만에 끝내버리라고? 듣자마자 이해해서 포스트를 작성하라? 좀 마음에 안드는 부분이지만 까라면 까야겠죠... 시간도 너무 빡빡하잖아... 어디 중학교 수학이냐고...

출처 : Upstage AI Lab 3기 오영석 강사님 PPT

0개의 댓글