[R] Data Processing

Go~ USA·2024년 3월 23일

데이터분석 실무과정에서 내부터이터의 특징을 확인하고, 처리하고, 순위, 빈도 등을 확인하는 과정에 대해 알아본다. 단, 오늘은 내부데이터인 "iris"를 활용하는 것을 전제로 설명한다.

1) iris 데이터의 기본 통계량을 확인할 때 summary 함수 사용

summary(iris) # 컬럼별 통계치 확인

2) iris 데이터의 기본 구조를 확인하는 glimpse 함수 사용

install.packages("dplyr")  
library(dplyr)
glimpse(iris) # dplyr 패키지 : 데이터 구조 확인

3) iris 데이터의 기본 구조를 확인하는 str 함수 사용

str(iris)  # 데이터 구조 확인

4) data 의 빈도를 표시할때 사용하는 table 함수 사용

table(iris$Sepal.Width)

table(iris$Sepal.Width, iris$Species)

5) data 의 문자열의 고유값을 확인하는 unique 함수 사용

예시) 게임회사에서 당일 로그인했던 사람이 몇명인지 알고 싶을때. 몇명이 다수접속을 했을 수 있다. 실제 접속한 사람의 정보가 필요할때 유용함.

unique(iris$Species)
unique(subset.data.frame(iris, select = c("Sepal.Width","Species" )))

6) data의 오름차순 정렬 ( sort vs order )

# 값의 오름차순 정렬 : sort(데이터) 
sort(table(iris$Sepal.Width))

sort는 오름차순으로 column을 정렬한다. 단, 다른 column과의 연계는 되지않는다. 그래서 2차원 table data를 오름/내림 차순으로 정리할 경우에는 Order 함술를 사용한다.

head(iris)
order(iris$Petal.Length)
head(iris[order(iris$Petal.Length),]) 
head(iris[order(iris$Petal.Length, decreasing=T),])

iris data를 상위 6개 행만 확인하고, petal.length기준으로 오름차순으로 나머지 열을 같이 묶어서 정렬하되 6개만 뿌린결과이다. 단, petal.length로 정렬했지만, sepal.length로 재정열할 때는 data를 덮어써야 한다. 이럴때는 pipe operator 를 주로 사용한다.

7) data의 일부 열만 추출하는 subset 함수 사용

subset.data.frame(iris, select = c("Petal.Length","Sepal.Width"))

Raw data의 5개의 column중 2개의 column을 원하는 순서에 맞게 추출이 가능하다.