데이터 분석 (2) - 데이터 구조

김제형·2025년 3월 19일

벡터

  • 1차원 배열을 뜻한다.
d <- c(,, ...)

팩터

  • 같은 자료형의 데이터 묶음
x <- factor(c(,, ...))

colors <- factor(c("RED","BLUE","GREEN","BLUE","YELLOW","BLACK"))

matrix

  • 같은 자료형으로 구성된 2차원 행렬
MR <- matrix(1:9 ,nrow = 3 ,ncol = 3)
MR
//결과
      [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9

data.frame

  • 서로 같거나 다른 자료형으로 구성된 2차원 데이터 구조
human <- data.frame(name = c("Tom", "Jane" , "Patric"),
                    gender = c("M","W","M"),
                    height = c(180,160,175),
                    student = c(TRUE, TRUE, FALSE),
                    num = c(1:3))
human
//결과
    name gender height student num
1    Tom      M    180    TRUE	 1
2   Jane      W    160    TRUE	 2
3 Patric      M    175   FALSE	 3

data.frame VS matrix

  • 같은 2차원 행렬이지만 matrix는 같은 자료형 ( 숫자형 , 문자형 등 )으로만 구성되어야 하고 data.frame은 다른 자료형을 섞어 사용할 수 있다.

짧은 코드

인덱스 값

  • 인덱스는 0이 아닌 1 부터 시작
    인덱스를 사용하고자 할 땐 []가 아닌 [[]] 두개로 사용해야함

  • 값을 선택할 때 좌표는 [1,2]로 특정한 값을 선택할 수도 있고 [,2]와 같이 2행의 모든 열을 선택할 수도 있다.

정렬

d <- c(1,4,3,2)
sort(c , decreasing = TRUE) 
  • TRUE는 내림차순 , FALSE는 오름차순 으로 정렬한다.

  • byrow는 정렬 방법을 바꿀 수 있다.

    defalut값은 내림차순이다.

d <- matri(1:9 , ncol = 3 , nrow = 3 , byrow = T)
1 4 7
2 5 8
3 6 9

//byrow = F
1 2 3 
4 5 6
7 8 9

데이터 셋 기본 정보

iris 는 R에서 쓰이는 데이터 셋

dim - 행과 열의 갯수

  • 행과 열의 갯수
dim(iris)
  • 행의 갯수
nrow(iris)
  • 열의 갯수
ncol(iris)

행 OR 열 관련 코드

  • 행/열의 이름
colnames(iris)
rownames(iris)
  • 행/렬의 합산, 평균
colSums(iris [ , c(1,2) ] )
colMeans(iris [ c(1,2) , c(1,2) ] )
rowSums(iris [ c(1,2) , (1,2) ] )
rowMeans(iris [ , c(1,2) ] )
  • 행과 열 방향 전환
t(human)

상단/하단의 정보 확인

  • 상단 6개의 정보 확인
head(iris)
  • 하단 6개의 정보 확인
tail(iris)

자료구조 형태 확인

  • class , data frame , matrix 와 같은 자료구조인지 확인하는 방법이다.
class(human)
is.data.frame(human)
is.matrix(human)

> class(human)
[1] "data.frame"

> is.data.frame(human)
[1] TRUE

> is.matrix(human)
[1] FALSE
profile
개발자 지망생

0개의 댓글