통계 (1)

Myeongsu Moon·2024년 10월 14일
0

제로베이스

목록 보기
8/95

통계

1-2 데이터의 이해

1. 데이터와 그래프

  • 변수: 정해지지 않은 임의의 값을 표현하기 위해 사용된 기호, '변하는 숫자', 조사 목적에 따라 관측된 자료 값

  • 질적 자료: 몇개의 범주로 구분하여 표현할 수 있는 데이터

  • 양적 자료: 숫자 형태의 관측된 데이터, 숫자의 크기가 의미 가짐

  • EDA(Exploratory Data Analysis): 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
    -> 목적
    1) 초기 가설 수립
    2) 초기에 적절한 모델 및 기법 선정
    3) 변수간 트렌드, 패턴, 관계 찾고 통계적 추론 기반 가정 평가
    4) 분석 데이터에 적절한지 여부 평가, 추가 수집, 이상치 발견 등에 활용

  • 데이터 시각화
    -> 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정
    -> 도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 목적을 가짐

2. 데이터의 기초통계량

  • 기초 통계량: 표본으로 산출한 값, 통계량을 통해 데이터가 갖는 특성 이해 가능
  • 중심경향치: 표본의 중심을 설명하는 대표 값
  • 중앙값: 관측치를 크기 순으로 나열했을 때 가운데 위치하는 값
  • 최빈값: 가장 많이 관측되는 값
  • 산포도: 데이터의 흩어진 정도를 확인하기 위해 산포에 대한 측도도 고려해야 함
  • 범위: 데이터의 최대갑소가 최소값의 차이
  • 사분위수: 전체 데이터를 오름차순으로 정렬하여 4등분 한 것
  • 백분위수: 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 것
  • 분산: 데이터의 분포가 얼마나 흩어져 있는지 알 수 있는 측도
  • 표준편차: 분산의 제곱근
  • 변동계수: 표준편차를 평균으로 나눈 것으로, 평균이 다른 2개 이상 그룹 표준편차 비교시 사용
  • 왜도: 자료의 분포가 얼마나 비대칭적인지 표현하는 구조
  • 첨도: 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도

이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글