3주차 정리

Kim jae-eok·2020년 7월 18일
0

지난주 복습

  1. R은 통게분석과 데이터 시각화를 위한 프로그래밍 언어이자 소프트웨어이다.
  2. 빅데이터 분석을 위해 R을 활용할수 있으며 다양한 분석 알고리즘과 시각화 도구를 제공한다.
  3. R 은 모듣 데이터가 겍체지향 형태로 관리되어 효울적인 조작과 저장 방법 제공하고 모든겍체는 메모리로 로딩되어 고속으로 처리되고 재사용이 가능하다.

프로그램의 정의

  • 사용자와 컴퓨터의 대화를 위한 매게체

  • 사용자가 원하는 작업을 컴퓨터에게 전달해주는 역활

  • 사용자가 원하는 작업을 컴퓨터가 효율적으로 처리를 위해서
    * 문제 해결을 위한 최적의 프로그램이 필요하고

    • 프로그래머는 문제를 정의하고 분석하여 최적의 프로그램을 작성해야함
  • 프로그램 = 자료구조 + 알고리즘

빅데이터 분석은 대부분 통계분석을 통해 이루어짐

  • 통계에서 데이터 세트는 복수의 관찰대상에서 복수의 속성을 기록하므로 적절한 자료구조를 통해 자료를 효율적으로 관리할 필요가 있음

예시) 3명의 학생으로 부터 키를 측정하고 이를 R로 저장한다면??

height1 <- 170
height2 <- 174
height3 <- 162
  • 이때 키 변수 하나의 관리해야하는 변수는 3개로 만일 조사대상이 늘어난다면 변수는 점점 늘어나 관리가 힘들어질 수 있음

  • R에서 제공하는 자료구조는 변수에 의해서 메모리 배정

  • 배정된 기억공간에 자료 구조가 어떻게 저장되어 있는가에 따라서 몇 가지 형태로 분류

  • R 에서 제공하는 주요 자료구조는 크게 5가지로 분류됨
    * Vecrot : 1 차원 배열

    • List : 자료구조 중첩
    • Mecrix: 2차원 배열
    • Data Frame : 2차원 테이블 구조
    • Array : 다차원 배열

Vector

  • R 에서 가장 기본이 되는 자료구조

  • 벡터는 동일한 자료형을 갖는 값들의 집합으로 일반적으로 하나의 속성을 저장하는 단위로 사용

  • 사용연산자 : (콜론)

  • 시작값 : 종료값 의 형태로 사용되며 시작값 부터 종료값까지 1씩 더하거나 빼서 벡터 생성

    	```

    1:5
    [1] 1 2 3 4 5
    5:1
    [1] 5 4 3 2 1

  • 벡터 생성 함수 : c(), seq(), rep()
    * 기본 vector 생성함수

    • 콤마로 구분된 전달인자들로 벡터를 구성할 원소 전달

      c(1,2,3)
      [1] 1 2 3
      
      c(1 , 2, 3 c(4 , 5, 6))
      [1] 1 2 3 4 5 6
      
      x <- c(1, 2, 3)
      x [1] 1 2 3
      
      seq(from=1 , to=5 ,by=2)
      [1] 1 3 5
      
      c(x:y) // x : 초기값 y: 종료값
      seq(from , to , by) // from : 초기값 , to : 종료값 , by: 증가분
      rep(x , time , each) // x : 반복할 자료 , times: 전달된 벡터 x 의 전체 반복
      // each : 전달된 벡터 x 의 개별 원소들의 반복횟수

Matrix

  • 동일 데이터 타입을 갖는 2차원 배열
  • 행렬 겍체
  • Matrix 데이터 생성 함수
    rbind: 행 묶음
    cbind: 컬럼 묶음
  • Matrix 데이터 처리 함수
    * apply() : 함수적용
m <- matrix(c(1:5))
m <- matrix(c(1:10) , nrow=2)

Array

  • 동일 데이터 타입을 갖는 다차원 배열
  • 3차원 배열 겍체 생성

List

  • 하나의 메모리 영역에 키와 값이 한쌍으로 저장
  • C 언어에서 구조체 , Python 의 dict 자료구조와 유사
  • 함수 내에서 여러값을 하나의 키로 묶어서 반환할경우 유용

Data Frame

  • 데이터 베이스의 테이블 구조와 유사
  • List 와 Vactor 혼합형
  • Data Frame 생성 방법: Vactor, Matrix, txtx/excel/csv 파일

데이터 불려오기

  • R 에서 데이터 입출력을 위한 주요 함수
    scan
    키보드 입력
    콘솔창에서 입력
    더는 입력할 데이터 없을때 엔터
    scan() 함수를 이용한 문자입력
    what = character() 인수 사용
              ```
              x <- scan(what=character())
              ```
    • read.csv
      • 구분자 "," 가 seq 의 기본값이며 header=TRUE 가 기본값
        • read.csv(file="경로명/파일명", seq="," , header="TRUE")
    • edit
      edit() 함수를 이용하면 데이터 입력을 돕기 위해 표 형식의 데이터 편집기 제공
    • cat
      • 데이터 화면 출력
        • cat 함수를 이용하여 문자열과 변수의 값 출력
    • sink
      • sink("파일명") 함수를 이용하여 파일저장
        • 콘솔창 결과를 파일로 저장
    • read.table
      • 칼럼명이 없는 파일 불려오기
        • read.table (file="경로명/파일명", seq="칼럼구분자", header="T|F")
          student <- read.table(file="student.txt")
          student
    • sink 등
profile
블로그 이전 중 (https://www.notion.so/My-blog-0d569b9028434fb6a99a3e66b6e807b1)

0개의 댓글