R에서 사용되는 데이터 구조 중 가장 많이 사용하는 자료구조는 데이터프레임입니다.
데이터프레임은 각 변수별로 다른 유형을 가질 수 있습니다.
데이터프레임 자료형은 data.frame()함수를 이용하여 선언합니다.
c() 벡터를 선언해서 데이터 프레임을 만들어보겠습니다.
ID <- 1:4
Age <- c(23,12,45,32)
Type <- c("T1","T2","T3","T1")
Status <- c("Poor","Improved","Excellent","Poor")
양적 자료 (평균, 표준편차 사용)
1. 연속형 자료 (키,몸무게) --> 비율척도
2. 이산형 자료 (입장인원 수, 심장박동수) --> 카운팅 되는 자료
질적 자료 (평균, 표준편차 사용 불가)
1. 순위형 자료(선호도, 운동량) --> 해당값의 간격은 일정하지 않을 수 있다
2. 명목형 자료(성별, 흡연여부) --> 단순한 약속 (남자 =1, 여자 =2)
변수명 옆에 ["컬럼"] 컬럼값을 넣어줘서 불러오는 방식이 있고,
행의 자리나, 열의 자리를 이용해서 가져올 수도 있습니다.
데이터프레임 이름을 사용하지 않기 위해 사용하는 방법입니다.
mtcars 샘플을 주는 데이터 셋입니다.
head를 이용해서 상위 6개만 나타내서 출력합니다.
plot()함수로 기본 그래픽함수를 그려보겠습니다.
plot(mtcars$mpg, mtcars$wt)
mtcars 데이터프레임을 attach()함수로 선언하면 stack 저장공간에 데이터를 집어 넣기 때문에 mtcars$를 사용하지 않아도 됩니다.
attach(mtcars)
plot(mpg,wt, pch = 19)
attach()함수는 여러번 사용하면 stack에 계속 쌓이기 때문에 꼭 detach()를 해주어야합니다.
with(mtcars,{
print(mpg)
d1 <<- mpg*3
print(summary(mpg))
plot(wt, d1, pch = 8, col = 'red')
})
{}에안 여러개의 명령문을 설정합니다.
print() ()안에 있는 명령어는 with() 밖에서는 그냥 사용 할 수 있지만 일반적으로 with()안에서는 print()함수를 사용하여 변숫값을 출력합니다.
d1을 with 함수 밖에서 사용하고 싶을 때는 <<- 부등호를 하나 추가해서 저장하면 전역 변수로 사용 할 수 있습니다.
데이터프레임이름 $변수를 새로운 변수명으로 선언하여 간편하게 이용가능합니다.
질적변수인 범주형,서열형일 때 factor()함수 사용
levels(수준)의 기본값은 알파벳 순서입니다.
그래서 levels로 순서를 정해줍니다.
summary(Dataframe) 데이터프레임에 들어 있는 변수의 특성, 형식이 정확히 표현됩니다.