혼공R이 4주차

Dongho Kim (Quro)·2024년 1월 28일
0

혼공R이

목록 보기
4/6

04. 데이터 다루기

04-1 데이터 수집하기

외부 데이터 가져오기

TXT파일: read.table("원시 데이터", header = False, skip = 0, nrows = -1, sep = "", ...)
CSV파일: read.csv("원시 데이터")
Excel파일: read_excel("원시 데이터")
XML파일: xmlToDataFrame("원시 데이터")
Json파일: fromJson("원시 데이터")

04-2 데이터 관측하기

IRIS 데이터를 불러온 뒤 구조 확인하기

데이터 세트 컬럼 및 관측치 확인하기

열 개수 확인: ncol(변수명)
행 개수 확인: nrow(변수명)

행열 확인: dim(변수명)

컬럼명 확인: ls(변수명)

앞부분 확인: head(변수명, n = 수량)
뒷부분 확인: tail(변수명, n = 수량)

기술통계량 확인하기

평균: mean()
중앙값: median()

최솟값: min()
최댓값: max()
최솟값에서 최댓값의 범위: range()

분위수: quantile(변수명, probs = 0 ~ 1)

분산: var()
표준편차: sd()

첨도: kurotosi()
왜도: skew()

데이터 빈도분석하기

freq(변수명)

# freq()함수는 descr패키지에 포함되어 있으므로 패키지를 먼저 설치하고 로드해야한다.
# install.packages("descr")
# library(descr)

04-3 데이터 탐색하기

  1. 막대 그래프 그리기

막대 그래프는 범주형 데이터의 수량이 많고 적음을 나타낼 때 적합한 그래프로, 각 항목의 수량을 빠르게 파악할 수 있다.

  • freq() 함수
freq(변수명, plot = T, main = '그래프 제목')
  • barplot() 함수
barplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목",...), col = c("색상",...),...) 
  1. 상자 그림 그리기

상자 그림은 데이터의 분포를 비교하거나 이상치를 판단할 때 주로 사용하는 그래프이다. 상자 그림은 5가지 항목을 시각화한 요약 정보를 제공한다. 극단값, 제3사분위수, 평균값, 중앙값, 제1분위수로 구성된다.

최댓값
제3사분위수
평균값
중앙값
제1분위수
최솟값
  • boxplot() 함수
boxplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목",...), col = c("색상",...),...) 
  1. 히스토그램 그리기

히스토그램은 연속형 데이터를 일정하게 나눈 구간을 가로 축으로, 각 구간에 해당하는 데이터 수를 세로 축으로 그린 그래프이다. 히스토그램을 이용하면 구간별 관측치 분포 상태를 빠르게 확인할 수 있다.

  • hist() 함수
  1. 파이차트 그리기

파이차트는 원을 데이터 범주 구성 비례에 따라 파이 조각을 나누는 것처럼 표현하는 그래프이다.

  • pie() 함수
  1. 줄기 잎 그림 그리기

줄기 잎 그림은 변수 값을 자릿수로 분류하여 시각화하는 방법으로, 큰 자릿수의 값은 줄기에 표현하고 작은 자릿수의 값은 잎에 표현하여 데이터의 전체적인 형태를 파악할 수 있는 그래프이다.

  • stem() 함수
stem(변수명, scale = 1)
  1. 산점도 그리기

산점도는 연속형 숫자 변수일 때 두 변수 간 관계를 점으로 나타내 점들의 형태에 따라 산점도를 확인할 수 있다. 이 중 우상향하는 형태는 두 변수 사이에 상관관계가 있음을 의미한다.

  • plot() 함수
plot(x,y)
  • 산점도 행렬

산점도 행렬은 앞서 살펴본 산점도들이 행렬로 나타난다.

pairs(변수명)

0개의 댓글