변수명 <- C(값)
넣은 데이터를 데이터 프레임으로 만들어 View()함수로 데이터 조회
코드 | 결과 화면 |
---|---|
![]() | ![]() |
read.table("원시 데이터", header = FALSE, skip = 0, nrorws= -1, sep = "", ...)
header :원시 데이터의 1행이 변수명인지 아닌지 판단
skip : 특정 행까지 제외하고 데이터 가져옴
nrows : 특정 행까지 데이터를 가져옴
sep : 데이터의 구분 문자를 지정
파일을 가져올 때는 역슬래시가 아닌 슬래시를 사용
원시 데이터의 변수명이 값이 되고 테이블 첫 번째 행에는 임의의 변수명이 삽입됨
-> header 옵션을 사용하여 원시 데이터에 변수명이 있음을 지정해 줘야함
header = TRUE
변수명으로 사용할 행이 없다면 col.names 옵션
행 이름을 부여하고 싶다면 row.names 옵션
skip 옵션
데이터 전체가 아니라 옵션이 지정한 특정 행까지 제외하고 그 이후 행부터 가져옴
ex) skip = 2 옵션 -> 원시 데이터 2행까지 제외 3행부터 불러옴
nrow 옵션
몇 개의 행을 불러올지 지정할 수 있음
sep 옵션
데이터 구분자를 지정하는 옵션
csv 파일은 쉼표를 이용해 열을 구분하는 데이터
read.csv("원시 데이터")
엑셀 파일은 외부 데이터 중 원시 데이터로 가장 많이 활용하는 파일
read_excel("원시 데이터")
read_excel()함수는 readxl 패키지에 있는 함수로 먼저 패키지를 설치하고 로드해야함
install.packages('readxl') library(readxl)
XML 파일은 HTML과 비슷하지만 데이터를 보여주는 것이 아닌 저장하고 전달하는 목적으로 만들어진 형식
JSON 파일도 데이터를 전달하는 목적으로 만들어진 파일 형식
xmlToDataFrame("원시 데이터")
XML 패키지안에 있는 함수로 설치하고 로드가 필요함
install.packages("XML") Library(XML)
fromJSON("원시 데이터")
jsonlite 패키지안에 있는 함수로 설치하고 로드가 필요함
install.packages("jsonlite") Library(jsonlite)
data()함수를 변수나 옵션 없이 실행하면 R에 내장된 데이터 세트 목록을 전부 확인할 수 있음
data()
str(변수명)
데이터를 더욱 단순하게 확인하는 방법은 데이터 컬럼(열)과 관측치 (행) 개수만 확인하는 것
ncol(변수명)
nrow(변수명)
dim(변수명)
컬럼명 확인할 때 사용
ls(변수명)
head()함수나 tail()함수를 이용
head(변수명, n = 수량)
tail(변수명, n = 수량)
기술통계량 = 데이터를 요약한 대푯값
평균 = 데이터를 모두 더한 후 개수로 나눈 값
중앙값 = 데이터를 크기 순으로 정렬했을 때 가운데 있는 값
데이터 개수가 짝수이면 가운데에 있는 2개의 값을 더해 2로 나누어 구함
mean(변수명) / median(변수명)
최솟값 = 데이터에서 가장 작은 값
최댓값 = 데이터에서 가장 큰 값
보통 이상치를 판단하기 위해 최솟값과 최댓값 확인
min(변수명) / max(변수명) / range(변수명)
분위수 = 전체 데이터를 크기 수능로 정렬하여 n개로 나누었을 때 그 경계에 해당하는 값으로 데이터를 4등분 한 지점의 관측값을 사분위수
quantile(변수명, probs = 0~1)
분산과 표준편차는 데이터가 대푯값에서 어느 정도 흩어져 있는지 산포도를 판단하는 통계량
분산 = 데이터가 평균으로부터 퍼진 정도를 설명하는 통계량
(값이 클수록 평균에서 데이터 값이 퍼진 정도가 넓다)
표준편차 - 데이터 값이 퍼진 정도를 설명하는 통계량
(값이 클수록 데이터 값이 넓게 퍼짐)
var(변수명) / sd(변수명)
첨도와 왜도는 데이터의 비대칭도를 파악하는 기술통계량
첨도 = 데이터 분포가 정규분포 대비 뾰족한 정도를 설명하는 통계량
데이터가 어느 정도로 중심에 몰려 있는지를 파악할 수 있음
왜도 = 데이터 분포의 비대칭성을 설명하는 통계량
데이터가 어느 방향으로 치우쳐있는지 또는 대칭을 띄고 있는지 파악할 수 있음
첨도 = kurtosi(변수명)
왜도 = skew(변수명)
빈도 분석 = 데이터의 항목별 빈도 및 빈도 비율을 나타내는 방법
freq(변수명)
descr 패키지안에 있는 함수로 설치하고 로드가 필요함
막대 그래프 = 범주형 데이터의 수량이 많고 적음을 나타낼 때 적합한 그래프
freq(변수명, plot = T, main = '그래프 제목')
barplot()함수는 별도의 패키지를 설치하지 않아도 막대 그래프를 그릴 수 있음
barplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목", ...), col = c("컬러",...),...)
상자 그림은 데이터의 분포를 비교하거나 이상치를 판단할 때 주로 사용하는 그래프
극단값(최댓값과 최솟값), 제3사분위수, 평균값, 중앙값, 제1사분위수 구성
baxplot(변수명)
히스토그램은 연속형 데이터를 일정하게 나눈 구간(계급)을 가로 축으로, 각 구간에 해당하는 데이터 수(도수)를 세로 축으로 그린 그래프
hist(변수명)
막대 그래프의 경우 이산형 데이터로 그래프 막대가 분리되어 있지만, 히스토그램은 연속형 데이터로 그래프 막대가 붙어 있음
파이차트는 원을 데이터 범주 구성 비례에 따라 파이 조각을 나누는 것처럼 표현하는 그래프
pie(변수명)
줄기 잎 그림은 변수 값을 자릿수로 분류하여 시각화하는 방법
큰 자릿수의 값은 줄기에 표현하고 작은 자릿수의 값은 잎에 표현하여 데이터의 전체적인 형태를 파악할 수 있는 그래프
원 데이터 특성을 잃지 않고 자료를 분석할 수 있는 장점이 있음
stem(변수명, scale = 1)
scale 옵션 = 구간을 조정할 수 있음
산점도 = 산포도
연속형 숫자 변수일 때 두 변수 간 관계를 점으로 나타내 점들의 형태에 따라 산포도를 확인할 수 있음
plot(x,y)
산점도 행렬은 앞서 살펴본 산점도들이 행렬로 나타남
여러 개의 변수 관계를 한번에 확인할 수 있는 그래프
pairs(변수명)
psych 패키지의 pairs.panel()함수
# pairs()함수보다 다른 그래프와 수치 등이 추가되어 결과를 더 명확하게 볼 수 있음