혼자 공부하는 R 데이터 분석

김영준·2023년 10월 4일
0

R

목록 보기
3/3

혼자 공부하는 R 데이터 분석

1. OT 및 R설치

2. 데이터 분석을 위한 기본

[2-1] 데이터 분석 과정

데이터 분석이란?

: 과거와 현재의 상황을 파악하고, 미래를 예측하도록 하는 근거를 제시하는 과정

데이터 분석 설계 (방향성 기획 / 방법론 검토 / 가설 설정)
> 데이터 준비 (데이터 준비 / 데이터 파악)
> 데이터 가공 (추출 및 정제 / 파생 변수 생성 / 데이터 병합)
> 데이터 분석 (통계 분석 / 그래프 및 시각화)
> 결론 도출 (분석 결과 해석 / 분석 결과 정리)

  1. 데이터 분석 설계
    a. 주제 선정
    b. 가설 설정
    c. 분석 가능 변수 구성 (종속 및 독립 변수 선언)
    d. 분석 항목

  2. 데이터 준비
    a. 필요한 데이터를 찾아 직접 입력하여 생성
    b. 기존에 누군가 구성해 둔 데이터를 찾아 활용
    c. 웹 크롤링 방식 이용

  3. 데이터 가공
    a. 원시 데이터를 원하는 데이터의 형태로 처리하는 과정
    ex) 불필요한 변수 제거 > 필요한 변수의 데이터만 따로 추출
    ex) 기존 데이터 간 연산을 통해 조건에 맞는 데이터 구성
    ex) 데이터 값에 따라 그룹화 하여 세로운 변수를 생성

  4. 데이터 분석하기
    a. 데이터 분포를 확인하기 위해 기술 통계량(빈도, 평균, 최댓값, 이상치 등)으로 데이터 파악
    b. 시각화(그래프)

  5. 결론 도출

[2-2] 데이터 생김새

데이터 유형

  • 벡터
    : 1차원 형태
    변수명<-c(값)

  • mode() or typeof()
    : 데이터 유형 확인

    • numeric : 벡터가 숫자형
    • character : 문자형
    • logical : T/F

ex.)

>mode(12345)
[1] numeric
  • str()
    : 데이터 유형과 길이와 값을 전체적으로 확인
    ex.)

    	```
    	>str(12345)
    	 num 12345
    	```
  • length() 함수
    : 데이터 길이 확인 함수

  • remove() or rm()
    : 데이터 삭제 함수

  • factor()
    : 범주형 자료
    factor(범주화할 자료, labels = c("범주1","범주2"))

    ex_vector5 <-c(2,1,3,2,1)
    ex_vaector5
    cate_vector <- factor(ex_vector5, labels = c("Apple", "Banana", "Cherry"))
    cate_vector5

    [1] 2 1 3 2 1
    [1] Banana Apple Cherry Banana Apple
    Levels: Apple Banana Cherry -------------#범주를 의미

  • 행렬
    maxrix(벡터, nrow = 행 개수, ncol = 열 개수)

    • byrow = T : 열부터 채움 (왼쪽 > 오른쪽으로 채움)
    • byrow = F : 행부터 채움 (위 > 아래로 채움)
      x<-c(1,2,3,4,5,6)
      matrix(x,nrow=2,ncol=3,byrow=T)
                      
  • 배열
    : array(변수명, dim=c(행 수, 열 수, 차원수))

y <- c(1,2,3,4,5,6)
array(y,dim=c(2,2,3))

>,,1
      [,1]  [,2]
 [1,]  1     3
 [2,]  2     4

,,2
      [,1]  [,2]
 [1,]  5     1
 [2,]  6     2

,,3
      [,1]  [,2]
 [1,]  3     5
 [2,]  4     6
  • 리스트
    list()

    list1 <- list(c(1,2,3),"Hello")
    list1
    
    >[[1]]
    [1] 1 2 3
    
    [[2]]
    [1] "Hello"
  • 데이터 프레임
    : 슷지형 벡터, 문자형 벡터 등 서로 다른 형태의 데이터를 묶을 수 있는 다중형 데이터 세트
    data.frame(변수명1, 변수명2, ... , 변수명n)
    : 변수명들이 열로 나타날 것임

R 프로그래밍 익히기

[3-1] 변수와 함수

함수

[사용자 정의 함수]

함수명 <- function(매개변수1, 매개변수2, ...){
	  함수가 구현할 내용
      ...
      return(결과값)
    }

[3-2] 패키지

  • 패키지 설치

[3-3] 조건문과 반복문

연산자

  1. 할당 연산자
    <- 변수에 값을 저장

    c=d<-5
    c #[1] 5
    d #[1] 5
    
    
    g<-e=10
    >Error in G<-E = 10: object 'G' not found

    이러한 이유로 보통 <- 를 사용

  2. 산술 연산자
    +
    -
    *
    / : 나누기
    %/% : 몫
    %% : 나머지
    ** , ^ : 제곱수

  3. 관계 연산자
    > : 크다
    != : 같지 않다.
    ! : 아니다.

  4. 논리 연산자
    & : 그리고
    | : 또는

조건문

if(조건){
	조건이 True(참) 일 때 실행되는 구문1
    }
else{
	조건이 FAlSE(거짓) 일 떄 실행되는 구문2

반복문

for (변수 in 반복 횟수){
	반복 조건만큼 실행되는 구문
    }
apply()함수
: 동시에 여러 열이나 행을 처리하기 위해 생성

apply(x,margin,함수)
	: x-행렬 / margin(1):행 / margin(2):열 에 함수가 적용됨

lapply(x, 함수)
	: 연산 결과를 리스트로 반환하는 함수
    
sapply(x, 함수)
	: 연산 결과를 벡터로 반환하는 함수
profile
개발의 신이 될거다

0개의 댓글