데이터 다루기_수집,관측,탐색[혼자 공부하는 R 데이터 분석 3주차]

김서윤·2025년 7월 30일

3주차 R독학 chapter04 데이터다루기 혼자공부하는R데이터분석

혼자공부하는R데이터분석

목록 보기

3/6

데이터 수집하기

직접 데이터 입력하기

원시 데이터 입력

변수명 <- C(값)

넣은 데이터를 데이터 프레임으로 만들어 View()함수로 데이터 조회

코드	결과 화면

외부 데이터 가져오기 : TXT 파일

read.table()함수 : 데이터 프레임으로 가져오기

read.table("원시 데이터", header = FALSE, skip = 0, nrorws= -1, sep = "", ...)

header :원시 데이터의 1행이 변수명인지 아닌지 판단
skip : 특정 행까지 제외하고 데이터 가져옴
nrows : 특정 행까지 데이터를 가져옴
sep : 데이터의 구분 문자를 지정

파일을 가져올 때는 역슬래시가 아닌 슬래시를 사용

header 옵션

원시 데이터의 변수명이 값이 되고 테이블 첫 번째 행에는 임의의 변수명이 삽입됨
-> header 옵션을 사용하여 원시 데이터에 변수명이 있음을 지정해 줘야함

header = TRUE

변수명으로 사용할 행이 없다면 col.names 옵션
행 이름을 부여하고 싶다면 row.names 옵션

skip 옵션
데이터 전체가 아니라 옵션이 지정한 특정 행까지 제외하고 그 이후 행부터 가져옴
ex) skip = 2 옵션 -> 원시 데이터 2행까지 제외 3행부터 불러옴
nrow 옵션
몇 개의 행을 불러올지 지정할 수 있음
sep 옵션
데이터 구분자를 지정하는 옵션

외부 데이터 가져오기 : CSV 파일

csv 파일은 쉼표를 이용해 열을 구분하는 데이터

read.csv()함수

read.csv("원시 데이터")

외부 데이터 가져오기 : 엑셀 파일

엑셀 파일은 외부 데이터 중 원시 데이터로 가장 많이 활용하는 파일

read_excel()함수

read_excel("원시 데이터")

read_excel()함수는 readxl 패키지에 있는 함수로 먼저 패키지를 설치하고 로드해야함
install.packages('readxl')
library(readxl)

외부 데이터 가져오기 : XML, JSON 파일

XML 파일은 HTML과 비슷하지만 데이터를 보여주는 것이 아닌 저장하고 전달하는 목적으로 만들어진 형식
JSON 파일도 데이터를 전달하는 목적으로 만들어진 파일 형식

XML 파일 가져오기
HTML 태그처럼 <> 괄호로 이루어져 있음
태그명이 변수명이 됨

xmlToDataFrame("원시 데이터")

XML 패키지안에 있는 함수로 설치하고 로드가 필요함
install.packages("XML")
Library(XML)

Json 파일 가져오기
데이터 안에 다시 데이터가 정의된 중첩 데이터 구조로 속성(특기) - 값(농구, 도술)처럼 데이터 속성과 값이 쌍으로 이루어진 것이 특징

fromJSON("원시 데이터")

jsonlite 패키지안에 있는 함수로 설치하고 로드가 필요함
install.packages("jsonlite")
Library(jsonlite)

데이터 관측하기

데이터 전체 확인하기

data()함수를 변수나 옵션 없이 실행하면 R에 내장된 데이터 세트 목록을 전부 확인할 수 있음

data()

데이터 요약 확인하기

데이터 구조 확인하기

str(변수명)

데이터 세트 컬럼 및 관측치 확인하기

데이터를 더욱 단순하게 확인하는 방법은 데이터 컬럼(열)과 관측치 (행) 개수만 확인하는 것

ncol()함수 : 데이터 프레임 컬럼 (열) 개수

ncol(변수명)

nrow()함수 : 데이터 프레임 관측치 (행) 개수

nrow(변수명)

dim()함수 : 데이터 프레임 컬럼 (열) 및 관측치 (행) 개수를 확인

dim(변수명)

length()함수 : 데이터 개수를 확인하는 함수
벡터에 사용할 수 있고 특정 열을 지정할 수 있다는 차이점이 있음

데이터 세트 컬럼명 확인하기

컬럼명 확인할 때 사용

ls(변수명)

데이터 앞부분과 뒷부분 값 확인하기

head()함수나 tail()함수를 이용

head(변수명, n = 수량)
tail(변수명, n = 수량)

기술통계량 확인하기

기술통계량 = 데이터를 요약한 대푯값

평균관 중앙값

평균 = 데이터를 모두 더한 후 개수로 나눈 값
중앙값 = 데이터를 크기 순으로 정렬했을 때 가운데 있는 값
데이터 개수가 짝수이면 가운데에 있는 2개의 값을 더해 2로 나누어 구함

mean(변수명) / median(변수명)

최솟값, 최댓값과 범위

최솟값 = 데이터에서 가장 작은 값
최댓값 = 데이터에서 가장 큰 값
보통 이상치를 판단하기 위해 최솟값과 최댓값 확인

min(변수명) / max(변수명) / range(변수명)

분위수

분위수 = 전체 데이터를 크기 수능로 정렬하여 n개로 나누었을 때 그 경계에 해당하는 값으로 데이터를 4등분 한 지점의 관측값을 사분위수

제1 사분위수(Q1) : 제0.25분위수, 하위 25%에 해당하는 값
제2 사분위수(Q2) : 제0.50분위수, 50%에 해당하는 값
제3 사분위수(Q3) : 제0.75분위수, 하위 75% 혹은 상위 25% 해당하는 값
제4 사분위수(Q4) : 제1분위수, 100%에 해당하는 값
quantile() 함수

quantile(변수명, probs = 0~1)

분산과 표준편차

분산과 표준편차는 데이터가 대푯값에서 어느 정도 흩어져 있는지 산포도를 판단하는 통계량
분산 = 데이터가 평균으로부터 퍼진 정도를 설명하는 통계량
(값이 클수록 평균에서 데이터 값이 퍼진 정도가 넓다)
표준편차 - 데이터 값이 퍼진 정도를 설명하는 통계량
(값이 클수록 데이터 값이 넓게 퍼짐)

var(변수명) / sd(변수명)

첨도와 왜도

첨도와 왜도는 데이터의 비대칭도를 파악하는 기술통계량
첨도 = 데이터 분포가 정규분포 대비 뾰족한 정도를 설명하는 통계량
데이터가 어느 정도로 중심에 몰려 있는지를 파악할 수 있음
왜도 = 데이터 분포의 비대칭성을 설명하는 통계량
데이터가 어느 방향으로 치우쳐있는지 또는 대칭을 띄고 있는지 파악할 수 있음

첨도 = kurtosi(변수명)
왜도 = skew(변수명)

데이터 빈도분석하기

빈도 분석 = 데이터의 항목별 빈도 및 빈도 비율을 나타내는 방법

freq(변수명)

descr 패키지안에 있는 함수로 설치하고 로드가 필요함

plot = F 옵션은 막대 그래프 출력을 제외하는 옵션

데이터 탐색하기

막대 그래프 그리기

막대 그래프 = 범주형 데이터의 수량이 많고 적음을 나타낼 때 적합한 그래프

freq(변수명, plot = T, main = '그래프 제목')

barplot()함수는 별도의 패키지를 설치하지 않아도 막대 그래프를 그릴 수 있음

barplot(변수명, ylim = c(y축 범위), main = "그래프 제목", xlab = "x축 제목", ylab = "y축 제목", names = c("컬럼 제목", ...), col = c("컬러",...),...)

ylim : 출력할 y축 범위를 지정 - c() 함수를 사용해 벡터 형태로 지정
main : 그래프 제목을 지정
xlab : x축 제목을 지정
ylab : y축 제목을 지정
names : c()함수를 사용해 벡터 행태로 컬럼 제목을 지정
col : c()함수를 사용해 벡터 형태로 그래프 색상을 지정

상자 그림 그리기

상자 그림은 데이터의 분포를 비교하거나 이상치를 판단할 때 주로 사용하는 그래프
극단값(최댓값과 최솟값), 제3사분위수, 평균값, 중앙값, 제1사분위수 구성

baxplot(변수명)

히스토그램 그리기

히스토그램은 연속형 데이터를 일정하게 나눈 구간(계급)을 가로 축으로, 각 구간에 해당하는 데이터 수(도수)를 세로 축으로 그린 그래프

hist(변수명)

막대 그래프의 경우 이산형 데이터로 그래프 막대가 분리되어 있지만, 히스토그램은 연속형 데이터로 그래프 막대가 붙어 있음

파이차트 그리기

파이차트는 원을 데이터 범주 구성 비례에 따라 파이 조각을 나누는 것처럼 표현하는 그래프

pie(변수명)

줄기 잎 그림 그리기

줄기 잎 그림은 변수 값을 자릿수로 분류하여 시각화하는 방법
큰 자릿수의 값은 줄기에 표현하고 작은 자릿수의 값은 잎에 표현하여 데이터의 전체적인 형태를 파악할 수 있는 그래프

원 데이터 특성을 잃지 않고 자료를 분석할 수 있는 장점이 있음

stem(변수명, scale = 1)

scale 옵션 = 구간을 조정할 수 있음

산점도 그리기

산점도 = 산포도
연속형 숫자 변수일 때 두 변수 간 관계를 점으로 나타내 점들의 형태에 따라 산포도를 확인할 수 있음

우상향하는 형태는 두 변수 사이에 상관관계가 있음을 의미

plot(x,y)

산점도 행렬

산점도 행렬은 앞서 살펴본 산점도들이 행렬로 나타남
여러 개의 변수 관계를 한번에 확인할 수 있는 그래프

pairs(변수명)

psych 패키지의 pairs.panel()함수 
# pairs()함수보다 다른 그래프와 수치 등이 추가되어 결과를 더 명확하게 볼 수 있음

김서윤

데이터 분석 취업 준비중

이전 포스트

R 프로그래밍_변수,패키지,조건문과 반복문 [혼자 공부하는 R 데이터 분석 2주차]

다음 포스트