[zerobase_데이터 취업스쿨_스터디노트] 32. 기초통계

김소희·2024년 1월 16일
0

study_note

목록 보기
33/50

드디어 통계다 신난다..!

이번 강의는 기초 통계 이다.
머신러닝, EDA, 태블로를 이해하기 위해서는 통계에 대한 이해도가 있어야 하기 때문에
ADsP 자격증 딸 때 배웠던 기억을 다시 끄집어내고 정리해 볼 수 있는 시간이 될 것 같다!


[용어 설명]

  1. 변수(variable)
    : 수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호' 이다.보통 쉽게 설명하기 위해서 변하지 않는 숫자하는 표현을 자주 쓰고는 한다.
    통계학에서는 조사 목적에 따라 관측된 자료값을 변수 라고 한다. 해당 변수에 대하여 관측된 값을이 자료(Data) 가 된다.

  2. 질적 자료
    : 관측된 데이터가 성별,주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미한다. 데이터 입력시 1은 남자, 2는여자로 표현 가능하자 여기서 숫자의 의미는 없다. (순서형 변수: 교육수준, 건강상태)

  3. 양적 자료
    : 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있다.
    숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있다.

중앙값 (median)
: 평균과 같이 자주 사용하는 값으로 표본으로 부터 관측치를 크기순으로 나열 했을 때 가운데 위치하는 값을 의미함. 관측치가 홀수 일 경우 중앙에 취하는 값이고, 짝수 일 경우 가운데 두 개의 값을 산술 평균한 값임. 이상치가 포함된 데이터에 대해서 사용함.

최빈값(mode)
: 관측치 중에서 가장 많이 관측되는 값, 옷사이즈와 같이 명목형 데이터의 경우 사용한다.

산포도
: 데이터가 어떻게 흩어져 있는지 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함. 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음

범위(Range)
: 데이터의 최대값과 최소값의 차이를 의미함

사분위수(quartile)
: 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을 때, 첫 번째를 제1사분위수(Q1) ,
두 번째를 제 2사분위수(Q2) , 세 번째를 제 3사분위수(Q3) 라고 함

사분위수 범위 (IQR) = 제 3사분위수(Q3) - 제 1사분위수(Q1)


통계..고작 몇 달만에 다시 보는건데 처음보는 것 같음 ㅎ

[이미지출처: 제로베이스 강의]

profile
AI 개발자로 가는 길 두렵지 않아요

0개의 댓글