R은 C나 Java와 같은 프로그래밍 언어와 목적이 다르기 때문에 데이터 분석만을 목적으로 사용한다면 쉽게 익힐 수 있다. 가장 큰 이유는 R이 인터프리터 언어이기 때문이다. 인터프리터 언어는 명령어들을 한 번에 한 줄씩 읽어들여 실행하기 때문에 전체 문장이 맞아야 실
R에서 다룰 수 있는 데이터 타입은 다양하지만 주로 사용하는 것은 데이터 프레임(Data Frame)이다. 데이터 프레임은 엑셀의 시트와 같다. 행(row)과 열(column)이 존재하는 형태이다. 위 창은 스크립트 창이라고 한다. 코드를 입력한 후 Ctrl+Enter
데이터를 다루다보면 다양한 이유로 데이터가 잘못 입력되거나 저장이 안 되는 경우가 있다. 이런 값이 없는 데이터를 결측치(NA)라고 한다. 데이터 정제 단계에서는 결측치를 제거하거나 대체해야 한다.데이터의 첫 행은 데이터가 아닌 열 이름이기 때문에 header=TRUE
현재 작업공간에 데이터 파일이 존재하지 않다면 반드시 C:/파일 경로/파일명.csv를 입력해주어야 한다.
가장 기본 그래프인 막대 그래프로 부화장별 병아리 부화 마릿수를 나타내보자. 막대 그래프를 그리기 위해서는 barplot() 함수를 사용한다.위 그래프를 보면 색상도 단일 색상이고, 항목 이름도 없고, 항목별 값도 표시되지 않았다. 옵션을 지정하여 그래프를 바꿔보자.n
str() 함수를 통해 데이터 구조와 유형을 확인할 수 있다.2개의 변수가 30개의 관측치를 가지고 있는 data.frame 형태로 되어 있으며, chick_nm 변수는 Factor형, weight 변수는 int형으로 되어 있다.수치형 변수의 경우 최소값, 제1사분위수
병아리가 부화한 지 5일이 지났다. 그런데 부화장 A에서 태어난 병아리 대비 부화장 B에서 태어난 병아리의 덩치가 더 작아 보인다. 서로 다른 사료를 먹고 있으나, 정말 작은 건지 검정해보자.상자그림으로 비교해보니 부화장 A의 병아리 몸무게가 B보다 높게 분포되어 있음
iris(붓꽃) 데이터 셋을 이용하여 문제를 풀으세요.iris 데이터 셋의 구조와 형태를 R 함수를 이용해 확인해보세요. 몇 개의 열과 행으로 이뤄졌으며, 각 열은 어떤 형태를 갖추고 있나요?150개의 row를 가진 5개의 변수가 존재한다.Species 컬럼은 범주형
상관분석(Correlation Analysis)이란 연속형인 두 변수 간에 어떤 선형적 또는 비선형적인 관계를 갖고 있는지 분석하는 방법이다. 상관분석을 실시하면 두 변수 간의 관계를 상관계수(Correlation Coefficient)로 나타낸다. 상관계수는 -1에서
회귀분석(Regression Analysis)은 연속형 변수들에 대해 두 변수 간의 상관관계를 수식으로 나타내는 분석 방법이다. x라는 독립변수와 y라는 종속변수가 존재할 때 두 변수 간의 관계를 y = ax + b와 같은 수식으로 나타낼 수 있다.선형성 : 독립변수와
다중 회귀분석(Multiple Regression Analysis)은 독립변수가 2개 이상일 경우에 사용하며 수식으로 표현하면 y = ax1 + ax2 + c 형태로 나타낼 수 있다.weight를 종속변수로, egg_weight, movement, food를 독립변수로
비선형 회귀분석(Non-linear Regression Analysis)은 독립변수와 종속변수가 선형관계가 아닌 비선형 관계일 때 사용하는 분석 방법이다. 직선이 아닌 곡선 형태의 관계를 가질 수도 있기 때문에 이런 때에는 독립변수에 로그(log)나 거듭제곱 등을 취해
로지스틱 회귀(Logistic Regression)는 독립변수의 선형 결합을 이용해 사건 발생 가능성을 예측하는 데 사용되는 기법이다. 종속변수가 이산형(0 또는 1)일 경우 사용하며, 종속변수가 2개 이상의 범주를 갖는 경우에도 사용할 수 있다.3개의 변수와 60개의
분류 알고리즘의 경우 일반적으로 정오분류표(Confusion Matrix)와 ROC Curve의 밑부분 넓이인 AUC를 이용해 성능을 평가한다.실제 값과 예측값이 서로 얼마나 잘 맞아 떨어졌는지를 표로 나타낸 것이다. 수치형 데이터와 달리 범주형 데이터의 경우 실제 값
나이브 베이즈(Naive Bayes)는 베이즈 정리를 적용한 확률 분류 기법이다. 베이즈 정리는 조건부 확률을 구하는 공식으로 생각하면 된다. 조건부 확률이란 사건 B가 일어났다는 조건하에 사건 A가 일어날 확률을 $P(A|B)$ 라고 한다. $P(A|B)=P(A\\c
k-최근접 이웃(k-NN)은 가장 간단한 머신러닝 알고리즘으로 새로운 데이터에 대해 이와 가장 거리가 가까운 k개의 과거 데이터의 결과를 이용해 다수결로 분류하는 방법이다.분류와 회귀에 모두 사용할 수 있다. 또한 새로운 데이터에 더 가까운 이웃일수록 더 먼 이웃보다
의사결정나무(Decision Tree)는 주어진 독립변수에 의사결정규칙을 적용해 나가면서 종속변수를 예측해 나가는 알고리즘이다. 분류와 회귀에 모두 사용할 수 있다. 종속변수에 따라 분류나무와 회귀나무로 구분된다. 의사결정규칙(가지분할)을 만들 때 기준이 될 독립변수
배깅(Bagging)은 앙상블(Ensemble) 모형 중 하나이다.배깅은 Bootstrap Aggregation의 줄임말로 학습 데이터 셋으로부터 동일한 크기의 표본을 단순 랜덤 복원 추출해 여러 개 만들고, 각 표본에 대한 예측 모델을 생성한 후 결합해 최종 예측 모
부스팅(Boosting)은 앙상블 모형 중 하나로 배깅이 부트스트랩 시 각 표본에 동일한 확률을 부여하는 것과 달리 잘못 분류된 표본에 더 가중치를 적용해 새로운 분류 규칙을 만들고, 이런 과정을 반복해 최종 모형을 만드는 알고리즘이다.AdaBoost, GBM 같은 알
랜덤 포레스트란? 랜덤 포레스트(Random Forest)는 배깅을 적용한 의사결정나무의 앙상블 알고리즘이다. 랜덤 포레스트는 나무가 아니라 모인 숲의 수준으로 하나의 트리 모델이 아닌 다수의 부트스트랩 표본으로 트리 모델을 만든 후 그 결과를 취합해 분류의 경우에는
서포트 벡터 머신(Support Vector Machine)은 고차원의 공간에서 최적의 분리 초평면을 찾아 이를 이용해 분류와 회귀를 수행하는 알고리즘이다.서포트 벡터는 주어진 데이터 중에서 결정 경계와 가장 가까운 거리에 위치한 데이터들을 말한다. 마진은 결정 경계에