빅데이터와 R 언어
R언어란?
- 뉴질랜드 오클랜드 대학의 로버트 젠틀맨과 로스 이하카에 의해 시작
- 통계 분석과 그래프 형태의 시각화가 강점인 R
R의 장점
- 통계 분석 등에 활용할 수 있는 패키지 수가 많음
패키지 : R의 편리한 사용을 위해 만들어 놓은 함수들의 묶음
- 사용자 간에 다양한 정보를 공유할 수 있음
- 무료로 이용 가능
- 다양한 운영체제에 동작
R의 단점
- 쉬워도 프로그래밍 언어
처음 시작한다면, 어려움을 느낄 수 있음
- 처리 속도가 느림
대규모 개발은 어려울 수 있음
- 문제를 스스로 해결해야함 - 커뮤니티 활용👍🏻
데이터 분석 과정
데이터 분석 설계 - 데이터 준비 - 데이터 가공 - 데이터 분석 - 결론 도출
1단계 : 데이터 분석 설계하기
어떤 주제를 어떤 분석 방법으로 어떻게 시행할지 계획을 세우는 단계
- 주제를 명확하게 설정, 주제 내 용어를 정의
- 가설 설정 : 최대한 가설을 많이 세운 후 데이터 확보 가능 여부 판단
- 분석 가능 변수 구성
- 분석 항목 결정
2단계 : 데이터 준비하기
본인에게 필요한 데이터를 여러가지 방법에 따라 준비
3단계 : 데이터 가공하기
불필요한 변수를 제거하고 필요한 변수의 데이터만 다로 추출하거나 기존 변수의 데이터 간 연산을 통해 조건에 맞는 데이터 구성
필요에 따라 데이터를 새롭게 구성
4단계 : 데이터 분석하기
데이터 가공을 거쳐 준비한 데이터를 이용하여 당양한 분석을 시행하는 단계
- 기술 통계량 (데이터 분포 확인)
- 그래프로 시각화
5단계 : 결론 도출하기
데이터 생김새
데이터는 행과 열로 이루어진 n X m 형태의 데이터 세트
데이터 종류
- 벡터 : 한 가지 데이터 유형으로 구성된 1차원 구조의 데이터
- 행렬 : 한 가지 데이터 유형으로 구성된 2차원 구조의 데이터
- 배열 : 행렬을 n차원으로 확대한 구조의 데이터
- 리스트 : 숫자형 벡터, 문자형 벡터 등 여러 데이터 유형이 포함된 1차원 구조
- 데이터 프레임 : 리스트를 2차원으로 확대한 구조의 데이터
데이터 유형
- 숫자형 : 숫자로만 이루어진 데이터
- 문자형 : 문자로만 이루어진 데이터
- 논리형 : TRUE 혹은 FALSE로 이루어진 데이터
데이터 유형에 따른 분류
- 단일형 : 숫자형 또는 문자형과 같이 한 가지 데이터 유형으로만 구성된 데이터
- 다중형 : 숫자 데이터 또는 문자 데이터 등 여러 가지 데이터 유형으로 구성된 데이터
차원에 따른 분류
차원 : 데이터 내에서 특정 데이터 값을 찾을 때 필요한 정보의 개수

벡터
- 숫자형 벡터(실수형 / 정수형)
실수형 벡터 : 정수, 유리수, 무리수 모두 포함하는 숫자
정수형 벡터 : 정수만으로 구성


mode() 함수 : 데이터 유형을 확인하는 함수
str() 함수 : 데이터 유형과 값을 전체적으로 확인할 수 있는 함수
length () 함수 : 데이터 길이를 확인하는 함수
- 문자형 벡터
변수를 생성할 때와 마찬가지로 데이터를 따옴표로 감싼 형식으로 작성
숫자여도 따옴표를 붙인다면, 문자형으로 인식할 수 있음
- 논리형 벡터
true와 false라는 진릿값으로 이루어진 데이터
행렬과 배열

1) 2행 3열
matrix(x, nrow = 2, ncol =3)
2) 3행 2열
matrix(x, nrow = 3, ncol =2)

행의 순서를 바꾸고 싶을 때 byrow = T
배열
array() 함수 이용하여 생성
array (변수명, dim = c(행 수, 열 수, 차원 수)
리스트와 데이터 프레임
list() 함수 이용하여 리스트 생성
data.frame() 함수 이용하여 데이터 프레임 생성
혼자 공부하는 R 데이터 분석
➡️ https://www.yes24.com/product/goods/106175850