DATA CLEANING IN R
A huge part of data science involves acquiring raw data and getting it into a form ready for analysis. Some have estimated that data scientists spend 80% of their time cleaning and manipulating data, and only 20% of their time actually analyzing it or building models from it.
When we receive raw data, we have to do a number of things before we’re ready to analyze it, possibly including:
diagnosing the “tidiness” of the data — how much data cleaning we will have to do
reshaping the data — getting the right rows and columns for effective analysis
combining multiple files
changing the types of values — how we fix a column where numerical values are stored as strings, for example
dropping or filling missing values - how we deal with data that is incomplete or missing
manipulating strings to represent the data better
데이터의 잘 정리되어 있는지 진단
데이터 재구성
여러 파일 결합
값 유형 변경
누락된 값 삭제 또는 채우기
데이터를 더 잘 나타내기 위해 문자열 조작
📌 제어문
- 조건문
if, if-else, if-else if-else, switch- 반복문
for, while- 함수 및 클래스
Base에 기본으로 내장된 함수 및 클래스 사용
패지키(라이브러리)에 포함된 함수- Note
R 언어에서는 반복문과 함수를 사용할 일이 많지 않음
📌 표준입축력 및 파일 입출력
- 표준출력
- csv 파일 읽기/쓰기
read.csv, write.csv- 엑셀 파일 읽기/쓰기
read_xlsx, write.xlsx
상수
- 정수형
1, 8412, -5- 실수형
1.2, -2.9, 1.23E5- 문자열
“a”, “My name is Hasik.”- Boolean
T, TRUE, F, FALSE- 내장 상수
(누락치 또는 아직 정해지지 않은 수)
NA, NULL
일차원 배열
같은 타입의 변수들의 모임
c로 시작
c(값, 값, …)
v <- c(1,2,3)
n <- 1:10
x <- c(“a”, ”b”, ”c”)
names <- c(“kim”, “lee”, “park”, “choi”)



matrix(벡터, 행의 수, 열의 수)
m <- matrix(c(1,2,3,4,5,6), 2, 3)
m <- matrix(1:6, 3, 2)
index는 1부터 시작
대괄호로 index 지정
[행번호, 열번호] 순
dim() 함수는 행렬의 크기 구하기

ncol 또는 nrow로 열의 수 또는 행의 수 지정
[행번호, ]는 그 행 전체를 추출
[ , 열번호]는 그 열 전체를 추출

일차원 배열
다른 타입의 변수들의 배열 가능
리스트의 원소로는 무엇이든 가능
list(키=값, 키=값,…)
data <- list(name=“Hong”, grade=3,
scores=c(80,90,100))
“변수명$키이름”으로 사용
class()는 데이터 타입 알아보기
length()는 리스트의 길이 구하기

- structure의 약자 str()
- str이 string을 의미하는 것이 아님.
이차원 배열
다른 타입의 벡터 가능
리스트와 비슷하나 모든 벡터의 길이가 같아야 함
엑셀의 sheet 하나가 변수 1개에 저장
데이터베이스의 table 하나가 변수 1개에 저장
data.frame(키=값, 키=값, …)
df <- data.frame(name = n, age=a, score=s)
class()는 데이터 타입 알아보기
dim()는 데이터 프레임의 사이즈 구하기

“변수명$키이름”으로 사용
df[1, ]은 1행
df[ ,1]은 1열
nrow()는 행의 수
ncol()은 열의 수

