데이터 분석 과정은 순환 구조로 데이터 분석 설계, 데이터 준비, 데이터 가공, 데이터 분석, 결론 도출 순으로 이뤄짐.
1. 데이터 분석 설계: 어떤 주제에 대해 분석을 어떻게 할지 계획
2. 데이터 준비: 분석에 필요한 데이터 수집 및 파악
3. 데이터 가공: 불필요한 변수 제거, 분석 필요한 데이터로 변환
4. 데이터 분석: 통계 및 시각화 등 다양한 분석 방법 적용
5. 결론 도출: 가설 검정 및 결과 정리
데이터 구조 간 관계 및 데이터 유형텍스트
- 벡터(vector): 한 가지 데이터 유형, 1차원 구조
- 행렬(matrix): 한 가지 데이터 유형, 2차원 구조
- 배열(array): 행렬을 n차원으로 확대한 구조
- 리스트(list): 숫자형 벡터, 문자형 벡터 등 여러 유형이 포함된 1차원 구조의 데이터
- 데이터 프레임(data frame): 리스트를 2차원으로 확대한 구조
데이터 유형텍스트
- 숫자형: 숫자로만 이뤄짐
- 문자형: 문자로만 이뤄짐
- 논리형: TRUE 혹은 FALSE로 이뤄진 데이터
데이터 확인
- mode() 함수: 데이터 유형 확인, numeric=벡터
- str() 함수: 데이터 유형과 값 전체 확인
- length() 함수: 데이터 길이 확인
데이터 프레임 텍스트
- 행: 데이터 세트의 가로 영역 관측치
- 열: 데이터 세트의 세로 영역 변수
- 데이터 값: 관측된 값
연습문제 풀이
ID <-c(1,2,3,4,5)
MID_EXAM <-c(10, 25, 100, 75, 30)
CLASS <-c("1반","2반","3반","1반","2반")
dataframe_test <-data.frame(ID, MID_EXAM, CLASS)
dataframe_test

