본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초
명목 / 순서 변수 차이점 - 순서 변수에는 순위 개념
이 존재한다.
명목 변수
순위 개념이 있다.
ex) 성별 (남, 여), 지역 (서울, 광주, 부산)
순서 변수
순서가 개념이 없다.
ex) 자동차 크기(소형, 중형, 대형), 계층(상, 중, 하)
수치를 숫자로 나타낼 수 있는 자료
연속 자료
무한개
의 다른 값을 가진다.
ex) 키, 몸무게, 온도
이산 자료
유한개
의 다른 값을 가진다.
ex) 고장 횟수, 가족 구성원의 수
각각의 자료가 얼마 있는지 보여줍니다.
각 범주가 하나의 막대로 표현됩니다.
각 범주는 파이의 한 조각으로 표현됩니다.
보통 퍼센트
를 사용하여 총합이 100이 되도록 합니다.
전체적인 분포와 패턴을 확인합니다.
또, 그 패턴으로 부터 벗어난 극단적 관측치(outliers)을 살펴봅니다.
ex) 점도표, 줄기잎 그림, 히스토그램, 상자 그림, 선 그래프
대표값
산술평균 (mean), 중앙값 (median), 최빈값 (mode)
산포도
범위, 사분위 범위 (IQR), 표준편차
점의 개수로 자료가 몇개 있는지를 나타냅니다.
실제 자료의 수치를 그대로 사용 -> 정보의 손실이 없음
모든 값이 양수, 데이터 양이 많지 않을 때 좋음
그리는 방법 -> 첫자리에 10의 자리 수를 적고, 하나씩 1의 자리
를 적는다.
자료를 몇개의 구간으로 나누고, 각 구간에 들어가는 관측치의 빈도 또는 상대빈도 만을 나타낸다.
히스토그램 막대의 크기는 구간의 빈도에 비례한다.
데이터 양이 적은 경우 좋다.
ex) 학생들의 아이큐를 나타낸 히스토그램
시계열 자료
인 경우 x축을 시간으로 한 time plot 에서 추세 변동
과 계절 변동
등을 찾을 수 있음
자료정말 깔끔하게 이해가 쏙쏙되요! 정말 핵심만 잘 정리한 것 같아요!!👍👍👍
그런데 법주형데이터에 명목변수가 순위개념이"있다"라고 써있는데, 혹시 잘못된건 아닌가요?
제가배운것과 달라 질문드려요..!