R note 02

moon.kick·2025년 1월 26일

no_sports_cars <- no_sports_cars |> 
  mutate(japanese_make = 
           manufacturer %in% c("honda", "nissan", "subaru", "toyota"))
ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = japanese_make))

ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = cyl))

ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = as.factor(cyl)))

이 코드에서는 no_sports_cars 데이터를 변형하고 다양한 방식으로 시각화하는 과정을 보여줍니다. 각 부분을 순서대로 설명하겠습니다.


1. 일본 제조사 여부 변수 추가

no_sports_cars <- no_sports_cars |> 
  mutate(japanese_make = 
           manufacturer %in% c("honda", "nissan", "subaru", "toyota"))
  • mutate(): 데이터에 새로운 변수를 추가하거나 기존 변수를 수정하는 함수.
  • manufacturer %in% c("honda", "nissan", "subaru", "toyota"):
    • manufacturer(제조사)가 "honda", "nissan", "subaru", "toyota" 중 하나인 경우 TRUE, 그렇지 않으면 FALSE.
  • japanese_make:
    • 새로운 변수로 추가된 열로, 각 자동차가 일본 제조사에서 나온 차량인지 여부를 나타냄.
    • 값은 논리형(TRUE 또는 FALSE).

2. 일본 제조사 여부에 따른 시각화

ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = japanese_make))
  • color = japanese_make:
    • 점의 색상을 japanese_make 변수(TRUE 또는 FALSE)에 따라 다르게 설정.
  • 결과:
    • 배기량(displ)과 고속도로 연비(hwy)의 관계를 나타내는 산점도.
    • 일본 제조사 차량(TRUE)과 비일본 제조사 차량(FALSE)을 색상으로 구분.

3. 실린더 수에 따른 시각화 (색상: 숫자형)

ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = cyl))
  • color = cyl:
    • 점의 색상을 cyl 변수(실린더 수)에 따라 다르게 설정.
    • cyl은 숫자형 변수이므로, 색상이 연속형으로 표시됨(그라데이션).
  • 결과:
    • 배기량과 고속도로 연비의 관계를 나타내며, 실린더 수가 높고 낮음에 따라 색상이 점진적으로 변함.

4. 실린더 수에 따른 시각화 (색상: 범주형)

ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = as.factor(cyl)))
  • as.factor(cyl):
    • cyl 변수를 범주형(factor)으로 변환.
    • 숫자가 아닌 범주로 인식되므로, 고유 값마다 고유한 색상이 지정됨.
  • color = as.factor(cyl):
    • 각 실린더 수(예: 4, 6, 8)가 다른 색상으로 구분.
  • 결과:
    • 배기량과 고속도로 연비의 관계를 보여주며, 각 실린더 수에 고유 색상을 부여하여 구분.

비교

  1. japanese_make:
    • 일본 제조사 여부(TRUE, FALSE)를 이진 값으로 구분한 시각화.
  2. cyl (숫자형):
    • 실린더 수를 연속형 변수로 처리하여 색상을 그라데이션으로 표현.
  3. as.factor(cyl) (범주형):
    • 실린더 수를 범주형 변수로 처리하여 각 값에 고유 색상을 부여.

요약

  • mutate()를 사용하여 데이터를 변형하고, 논리형 변수(japanese_make)를 추가.
  • color 매핑에서 변수를 숫자형과 범주형으로 처리해 색상을 다르게 표현.
  • 이를 통해 동일한 데이터셋에서도 변수 타입에 따라 색상 구분 방식이 어떻게 달라지는지 이해할 수 있음.
profile
@mgkick

0개의 댓글