R을 이용해 분석 모형 구축을 해보자
: 독립변수
와 종속변수
의 관계가 선형
이고, 하나 이상의 독립변수
들이 종속변수
에 미치는 영향
을 추정
lm(formual, data) |
---|
선형 회귀분석 함수 |
type="response"
: 반응변수
의 크기로 값 반환
: 종속변수
가 범주형
인 경우 적용되는 회귀분석
glm(formual, family, data, ...) |
---|
로지스틱 회귀분석 family : 이항 로지스틱 회귀분석(범주가 2개 ex.죽거나 살거나)인 경우 "binomial" |
: 데이터들이 가진 속성
들로부터 분할 기준 속성
을 판별하고, 그 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
rpart(formula, data) |
---|
의사결정 나무 함수 |
n
) = 313root 313 99 neg
는 루트노드이며, 313개의 데이터 중 99개의 데이터가 부정(neg)
, 긍정(pos)은 68%, 부정은 31%glucose<127.5 192 25 neg
에서 glucose<127.5
인 데이터의 수는 313개 중 192개
이며, 25개가 부정임type="class"
: 각 분류에 속할 클래스
예측
: 마진이 가장 큰
초평면
을 선택하여 분리하는 지도학습
기반 이진 선형 분류기
svm(formula, data) |
---|
e1071패키지의 svm함수 |
: 해당 데이터와 가장 가까운 k개
의 데이터들의 클래스로 분류
k
는 훈련 데이터 개수의 제곱근
k
는 초매개변수
knn(train, test, cl, k) |
---|
class 패키지의 knn함수 cl : 학습용 데이터의 종속변수 k : 근접 이웃의 수(기본 1) |
: 입력값
을 받아서 출력값
을 만들기 위해 활성화 함수
사용
nnet(formula, data, size, maxit, decay=5e-04 ...) |
---|
nnet패키지의 nnet 함수 size : 은닉층의 개수 maxit : 반복할 학습 횟수 decay : 가중치 감소의 모수(기본값 5e-04) |
initial value
: 초기 손실 함수
배깅
: 다수의 부트스트랩
자료를 생성해 각 자료 모델링 후 결합
해 예측모형 생성
부트스트랩
: 랜덤 복원추출
bagging(formula, data, nbagg) |
---|
ipred패키지의 bagging 함수 nbagg : bootstrap의 개수 설정 |
랜덤 포레스트
: 의사결정 나무
의 분산이 크다
는 점을 고려해 배깅
과 부스팅
보다 더 많은 무작위성
을 주어 약한 학습기
들을 선형 결합
하여 최종 학습기 생성
randomForest(formula, data, ntree, mtry) |
---|
randomForest패키지의 randomForest 함수 ntree : 사용할 트리의 수 mtry : 각 분할에서 랜덤으로 뽑힌 변수의 수(랜덤 표본 추출 변수 수) |
proximity=TRUE
: 의사결정 트리 간 유사성
계산