데이터과학_11_2

김경민·2024년 11월 13일

3학년 2학기

목록 보기
20/29
post-thumbnail

📌 기초 통계 분석

분류척도
질적자료 (범주형자료)명목척도
서열척도
양적자료 (연속형자료)등간척도
비율척도
  • 질적자료
    (범주형자료)
    빈도표 만들기
    교차표 만들기
    막대그래프
    원그래프
  • 양적자료
    (연속형자료)
    기술통계량 구하기
    도수분포표 만들기
    히스토그램
    산점도

📌 결측치

Na와 NULL

  • NA: missing value(시스템 결측치)
  • NULL: 지정되지 않은 값 없는 값으로 없는 것 처럼 처리

결측치제거

  • 옵션 na.rm=T로 제거 가능
    na.omit(x): x의 모든 결측지를 제거

  • 다시 x에 저장해야 x가 변함
    print(x)에서는 어디에 있었던 NA가 지워졌는지 출력

데이터 프레임에서 na 삭제

  • any(is.na(df))로 NA가 하나라도 포함되어 있는지 확인
  • NA가 하나라도 들어있는 모든 행이 제거됨

데이터 프레임에서 na를 모두 0으로

  • NA를 모두 다른 값(0)으로 대체
  • 결측치를 해결하는 방법은 제거하는 방법과 다른 값으로 대체하는 방법도 있다.

사용자 결측치

  • 사용자 결측치(-999)를 모두 찾아 NA로 대체
  • 통계량 계산시 결측치는 제외하고…

📌 질적자료의 분석

빈도표 - table(x) table(x, y)

  • 범주형 자료의 빈도표
  • table(x)는 일변수
  • table(x, y)는 이변수 교차표

상대도수 - prop.table(테이블)

  • result <- table(x, y) 결과를 저장
  • prop.table(result)
  • 참고 proportion = 비율

막대그래프 그리기 - barplot(테이블)

  • table()의 결과를 막대그래프로

막대그래프 색상지정

  • table( )의 결과 유형은 table
  • R에서는 어떤 것도 변수로 저장 가능
  • 색상은 col
  • 테두리 색상은 border

📌 파일 읽기(실습 설문지 데이터)

빈도표

  • 변수명이 한글일 때 는 생략 가능
  • 빈도포: table
  • 가로/세로합: addmargins

막대그래프

  • options()를 이용하여 그래프의 너비(width)조정 가능
  • 높이는 height
  • default는 7

📌 공공데이터 활용

기본적인 통계함수

함수설명
min(x)최솟값
max(x)최댓값
sum(x)모든 성분의 합
prod(x)모든 성분의 곱
mean(x)평균
median(x)중앙값
range(x)범위 (최댓값 - 최솟값)
quantile(x)백분위수
var(x)분산
sd(x)표준편차
cov(x, y)공분산
cor(x, y)상관계수
rank(x)순위

공공데이터 도로교통공단_시군구별 월별 교통사고 통계_20231231.csv파일을 활용

1달 동안 사고건수가 많은 지역 찾기

사고건수의 도수분포표 구하기

  • cut의 디폴트는 오른쪽 끝 포함
  • right=F 옵션으로 이상 ~ 미만
  • 사고건수=100: 2057 + 14 = 2071

profile
무지(無知)

0개의 댓글