외부 데이터 가져오기
TXT파일: read.table("원시 데이터", header = False, skip = 0, nrows = -1, sep = "", ...)
CSV파일: read.csv("원시 데이터")
Excel파일: read_excel("원시 데이터")
XML파일: xmlToDataFrame("원시 데이터")
Json파일: fromJson("원시 데이터")
IRIS 데이터를 불러온 뒤 구조 확인하기
데이터 세트 컬럼 및 관측치 확인하기
열 개수 확인: ncol(변수명)
행 개수 확인: nrow(변수명)
행열 확인: dim(변수명)
컬럼명 확인: ls(변수명)
앞부분 확인: head(변수명, n = 수량)
뒷부분 확인: tail(변수명, n = 수량)
기술통계량 확인하기
평균: mean()
중앙값: median()
최솟값: min()
최댓값: max()
최솟값에서 최댓값의 범위: range()
분위수: quantile(변수명, probs = 0 ~ 1)
분산: var()
표준편차: sd()
첨도: kurotosi()
왜도: skew()
데이터 빈도분석하기
freq(변수명)
# freq()함수는 descr패키지에 포함되어 있으므로 패키지를 먼저 설치하고 로드해야한다.
# install.packages("descr")
# library(descr)
- 막대 그래프 그리기
막대 그래프는 범주형 데이터의 수량이 많고 적음을 나타낼 때 적합한 그래프로, 각 항목의 수량을 빠르게 파악할 수 있다.
freq(변수명, plot = T, main = '그래프 제목')
barplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목",...), col = c("색상",...),...)
- 상자 그림 그리기
상자 그림은 데이터의 분포를 비교하거나 이상치를 판단할 때 주로 사용하는 그래프이다. 상자 그림은 5가지 항목을 시각화한 요약 정보를 제공한다. 극단값, 제3사분위수, 평균값, 중앙값, 제1분위수로 구성된다.
최댓값
제3사분위수
평균값
중앙값
제1분위수
최솟값
boxplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목",...), col = c("색상",...),...)
- 히스토그램 그리기
히스토그램은 연속형 데이터를 일정하게 나눈 구간을 가로 축으로, 각 구간에 해당하는 데이터 수를 세로 축으로 그린 그래프이다. 히스토그램을 이용하면 구간별 관측치 분포 상태를 빠르게 확인할 수 있다.
- 파이차트 그리기
파이차트는 원을 데이터 범주 구성 비례에 따라 파이 조각을 나누는 것처럼 표현하는 그래프이다.
- 줄기 잎 그림 그리기
줄기 잎 그림은 변수 값을 자릿수로 분류하여 시각화하는 방법으로, 큰 자릿수의 값은 줄기에 표현하고 작은 자릿수의 값은 잎에 표현하여 데이터의 전체적인 형태를 파악할 수 있는 그래프이다.
stem(변수명, scale = 1)
- 산점도 그리기
산점도는 연속형 숫자 변수일 때 두 변수 간 관계를 점으로 나타내 점들의 형태에 따라 산점도를 확인할 수 있다. 이 중 우상향하는 형태는 두 변수 사이에 상관관계가 있음을 의미한다.
plot(x,y)
산점도 행렬은 앞서 살펴본 산점도들이 행렬로 나타난다.
pairs(변수명)