R note 01

moon.kick·2025년 1월 26일

library(dplyr)
library(ggplot2)
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, color = class))

library(dplyr)
library(ggplot2)
no_sports_cars <- filter(mpg, as.character(class) != "2seater")
ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = class))

이 R 코드 예제는 ggplot2dplyr 패키지를 사용하여 데이터를 시각화하고 필터링하는 과정을 보여줍니다. 아래는 각 코드 부분에 대한 설명입니다.


1. 라이브러리 로드

library(dplyr)
library(ggplot2)
  • dplyr: 데이터를 조작하고 필터링하기 위한 패키지.
  • ggplot2: R에서 데이터 시각화를 위한 강력한 패키지.

2. 기본 산점도 그리기

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))
  • mpg 데이터셋: ggplot2에 내장된 자동차 연비 데이터셋.
    • displ: 엔진 배기량 (리터 단위).
    • hwy: 고속도로 연비 (마일/갤런).
  • geom_point(): 산점도를 그리는 함수.
  • aes(x = displ, y = hwy):
    • x축: displ (배기량).
    • y축: hwy (고속도로 연비).
  • 결과: 배기량과 고속도로 연비의 관계를 보여주는 기본 산점도.

3. 클래스별 색상 추가

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy, color = class))
  • color = class: 자동차 클래스(class)에 따라 점의 색상을 다르게 지정.
    • 예: compact, suv, pickup 등.
  • 결과: 각 자동차 클래스별로 배기량과 고속도로 연비의 관계를 색상으로 구분하여 표현.

4. 특정 클래스(2seater) 제거 후 시각화

no_sports_cars <- filter(mpg, as.character(class) != "2seater")
  • filter(): 데이터셋에서 조건에 맞는 행만 선택.
    • 여기서는 class"2seater"(2인승 스포츠카)가 아닌 행만 선택.
  • as.character(): class 변수를 문자형으로 변환.
    • 이유: class는 팩터형 변수인데, 이를 문자열로 명시적으로 변환하여 비교.
ggplot(data = no_sports_cars) +
  geom_point(mapping = aes(x = displ, y = hwy, color = class))
  • 필터링된 데이터(no_sports_cars)로 시각화.
  • geom_point():
    • x축: 배기량(displ).
    • y축: 고속도로 연비(hwy).
    • color = class: 클래스별 색상 유지.
  • 결과: 2인승 스포츠카를 제외한 자동차 클래스들의 배기량과 연비 관계를 보여줌.

요약

  1. 첫 번째 그래프: 단순히 배기량(displ)과 고속도로 연비(hwy)의 관계를 보여줌.
  2. 두 번째 그래프: 자동차 클래스를 색상으로 구분하여 더 세부적인 정보를 제공.
  3. 세 번째 그래프: 2인승 스포츠카를 제외한 데이터를 필터링하고, 나머지 클래스별로 색상을 구분하여 시각화.

이 예제는 데이터 필터링(filter())과 시각화(ggplot2)를 활용한 분석 과정을 보여주는 간단한 사례로, 데이터 전처리와 시각화의 기초를 익히는 데 적합합니다.

profile
@mgkick

0개의 댓글