조건에 맞는 데이터 가공하기

yonny·2022년 10월 26일
0
post-custom-banner

조건에 맞는 데이터 추출하기: subset

subset() 함수는 조건에 맞는 데이터를 추출하는 명령어임

- salary가 high인 직원들만 추출하여 HR_High라는 새로운 데이터 셋을 생성

HR_High = subset(HR, salary == 'high')
summary(HR_High$salary)
>>  
	high    low medium 
	1237      0      0 

-salary가 high이면서, sales가 IT인 직원들만 추출하여 HR_High_IT 생성 (교집합)

HR_High_IT = subset(HR, salary=='high' & sales == 'IT')
print(xtabs(~HR_High_IT$sales + HR_High_IT$salary))
>>
                HR_High_IT$salary
HR_High_IT$sales high low medium
     accounting     0   0      0
     hr             0   0      0
     IT            83   0      0
     management     0   0      0
     marketing      0   0      0
     product_mng    0   0      0
     RandD          0   0      0
     sales          0   0      0
     support        0   0      0
     technical      0   0      0

✔분할표 작성 by table(), xtabs()

- xtabs(): formula를 사용하여 분할표를 구하는 함수
xtabs(formula = ~., data = parent.frame(), subset, sparse = FALSE,
na.action, addNA = FALSE, exclude = if(!addNA) c(NA, NaN),
drop.unused.levels = FALSE)

  • formula: 적용할 함수
  • data: 대상 데이터(ex) dataframe, matrix ...)
  • subset: 부분 집합
  • sparse: TRUE일 때 sparse matrix로 변환
  • na.action: 결측치가 있을 때 실행하는 함수
  • exclude: 사용하지 않을 데이터 지정
post-custom-banner

0개의 댓글