(1) 필요한 데이터 추출하기
library(dplyr)
library(readxl)
exdata1 <-read_excel("C:/Users/dasun/Downloads/source/Sample1.xlsx")
exdata1
-> 성별, 나이, 지역에 따른 20년/21년 이용 금액, 이용 건수가 있음
(2) 선택 변수만 추출하기
exdata1 %>% select(ID)
주의!!! %>%>가 아니라 %>%임. 뒤에 깍쇠 없음.
-> 변수 여러개 추출
-> 특정 변수 제외
exdata1 %>% select(ID, AREA, Y21_CNT)
exdata1 %>% select(-AREA)
주의!!!! 특정 변수를 제외하는 경우에는 앞에 마이너스('-') 부호를 붙이자
(3) 필요한 데이터만 추출하기
exdata1 %>% filter(AREA=='서울'& Y21_CNT >= 10)
filter를 활용해서 하고 , 여러개 하려면 &해서 연산자 활용
(1) 오름차순 & 내림차순 정렬하기
exdata1 %>% arrange(AGE)
exdata1 %>% arrange(desc(Y21_CNT))
주의!!!! 오름차순은 그냥 쓰고, 내림차순은 desc를 적기
중첩 정렬할 경우에는 AGE, decs(Y21_CNT)이렇게 해서 쉼표 사용
exdata1 %>% summarise(TOT_Y21_AMT=sum(Y21_AMT))
exdata1 %>% group_by(AREA) %>% summarise(SUM_Y21_AMT=sum(Y21_AMT))
-> 여기서 TOT~는 새 변수명, AREA는 그룹기준, SUM~새변수명임
left_join(테이블1, 테이블2, by="변수명") -> 테이블 1 기준으로 2에 있는 나머지 변수 결합
inner_join(테이블1, 테이블2, by="변수명) -> 테이블 1과 2에서 기준으로 지정한 변수 값이 같을때
full_join(테이블1, 테이블2, by="변수명) -> 테이블 1과 2에서 기준으로 지정한 변수 값 전체
exdata2 <-exdata1 %>% filter(AGE<=30 & Y20_CNT>=10)
exdata2
AGE가 30세 이하면서, Y20_CNT가 10건 이상인 데이터를 exdata2로 생성
-> 여기서 오류가 두 번 남
middle_mid_exam <- read_excel("C:/Users/dasun/Downloads/source/middle_mid_exam.xlsx")
View(middle_mid_exam)
library(dplyr)
library(reshape2)
MATHEMATICS <- middle_mid_exam %>% select(CLASS, ID, MATHEMATICS)
MATHEMATICS <- dcast(MATHEMATICS, ID ~ CLASS)
View(MATHEMATICS)
ENGLISH <- middle_mid_exam %>% select(CLASS, ID, ENGLISH)
ENGLISH <- dcast(ENGLISH, ID ~ CLASS)
View(ENGLISH)
여기서 select 빼고 적어서 처음에 오류남