
데이터 분석

1. R의 기본 연산 1. 산술 연산과 주석 > 2+3 [1] 5 > (3+6)*8 [1] 72 > 2^3 [1] 8 일반적으로 R에서는 한줄에 하나의 명령문 한줄내에서 # 이후에 내용은 주석으로 간주 2. 산술 연산의 함수 > log(10)+5 # 로그함수 [1] 7.302585 > sqrt(25) # 제곱근 [1] 5 > max(5,3,2) # ...

1. 매트릭스 1. 매트릭스의 개념 1차원 데이터 : ‘몸무게’ 데이터와 같은 단일 주제의 데이터 → 벡터 2차원 데이터 : ‘키’, ‘몸무게’, ‘나이’ 와 같은 여러 주제의 데이터 → 매트릭스, 데이터프레임 매트릭스(matrix): 데이터 테이블의 모든 셀의 값들이 동일한 자료형 데이터프레임(data frame): 자료형이 다른 컬럼들로 구성 ...

1. tidyverse 1. tidyverse 라이브러리 구동 2. 현재 사용중인 파일 위치 3. 외부에 저장된 데이터 불러오기 4. %>% : 파이프 오퍼레이터 (pipe operators) Tidyverse에서 가장 많이 사용되는 오퍼레이터 “A, then B” 라고 읽음 : “”~하고, 이후에 ~한다” 의 의미를 가짐 %>%의 기본 문법 >단...

1. 단일 범주형 변수 1. 단일 범주형 변수 빈도분석 1. 단일 범주형 변수 사전처리(Pre-processing) > ggplot2 패키지의 구성 요소 기존에생성한도표영역위에 기하학적요소추가: + 연산자이용 기하학적요소는함수명이geom_xxx() 형태 2. 단일 범주형 변수 시각화 3. 범주형 변수의 수준이 많은 경우 빈도

1. 연속형 변수 1. 기술통계량 : summarize_*( ) 기술통계분석 : summarize(), summarizeat(), summarizeif(), summarize_all() 함수 이용 >#. A tibble: 1 × 1 mean(PPAGE, na.rm = T) 1 49.4 #. A tibble: 1 × 1 mean_PPAGE 1 49....

1. 확률 분포 1. R에서 제공하는 확률 분포 , 관련된 함수 목록 표1의 name에 표2의 R name에 해당하는 함수를 조합 d: 확률분포 p: 누적확률분포 q: 분위함수 r: 랜덤 생성 2. 이산확률분포 
1. 추정 1. 추정방법 점추정 : 표본으로부터 추정량을 이용하여 모수를 추정하는 방법 표본추출에 따라 추정치가 달라지는 단점 존재 구간 추정 : 점추정을 중심에 두고 하한과 상한을 구하는 방법 표준오차와 해당 추정치가 따르는 분포함수의 확률을 이용하여 신뢰구간을 구하는 과정 100(1-a)%신뢰구간:(1-a)로 표현하는 확률인 신뢰수준을 이용...

1. 등분산검정 1. 두 모집단 분산 동일성 검정 두 표본의 분포는 분산이 같은 경우와 분산이 같지 않은 경우를 나누어 생각 가설수립 귀무가설: 두 집단의 모분산은 동일하다. 대립가설:두집단의 모분산은동일하지 않다. 2.R등분산검정 3.예제 > 다음 자료는 남학생과 여학생의 신장을 측정한 자료이다 이를 기초로 남녀간에

1.이원분산분석(Two-wayANOVA) 1. 분산분석 구분 3개 이상의 집단에 대한 평균 사이를 알아보는 검정 독립변수와 종속변수의 개수에 따른 종류 구분 2. 이원 분산분석 두 가지 요인을 기준으로 집단 간 사이를 조사하는 것 2개의 독립변수에 따른 종속변수의 평균 사이를 검증 2개 독립변수 간 상호작용 효과를 검증 상호작용0nteraction) : ...

1.연관성분석 연관성분석(Association AnaIysis) 조사 대상에서 수집한 자료의 적도를 기준으로 변수들 간에 어느 정도 밀접한 관계가 있는지를 판단하기 위한 분석 방법 자료의 적도를 기준으로 변수 간의 연관성을 파악하기 때문에 척도에 따라 연관성 분석 방법도 달라짐 연속형 적도 : 피어슨 상관분석 범주형 척도 : 교자분석 1. 상관분석(Cor...

1. 다중회귀분석 1. 다중회귀분석(Multiple Regression Analysis) 여러 개의 독립변수 X가 종속변수 Y 에 미치는 영향을 회귀식(회귀방정식)을 이용하여 분석하는 방법 단순선형 회귀가 하나의 독립변수를 다룬다면 다중선형 회귀는 여러 개의 독립변수 를다룸 예. 키와 몸무게를 가지고 혈당 수치를 예측하는 문제 독립변수: 키, 몸무게 ...

1. 비모수 통계 1. 비모수통계(Non-parametric Statistics) 표본 데이터의 일정한 특징에 대한 가정이 위배되는 경우에 사용 소규모 표본일 경우 ('표본이 모집단을 대표하기 충분히 크다라는 가정이 위배되는 경우)에 사용 모수에 대한 가정이나 추정을 전제로 하지 않음 모집단의 형태에 관계없이 주어진 자료에서 직접 확률을 계산하여 통계적...