[R] Normalization, Standardization

Go~ USA·2024년 3월 23일
0
  • R을 기반으로 데이터를 분석하기 위해서는 정규화(Normalization) 및 표준화(Standardizaion) 과정을 거친다. 이들의 정확한 의미를 이해하고 진행하기위해 R을 기반으로 처리 이후의 결과를 확인하였다.

★ [학습목표]

정규화(Normalization)와 표준화(Standardizaion)의 개념을 이해한다.

# 데이터셋 생성
data <- c(10, 20, 30, 40, 50)

# 정규화
normalized_data <- (data - min(data)) / (max(data) - min(data))

# 표준화
standardized_data <- (data - mean(data)) / sd(data)

# 결과 출력
print("정규화된 데이터:")
print(normalized_data)

print("표준화된 데이터:")
print(standardized_data)
# 필요한 라이브러리 로드

library(ggplot2)

# 데이터셋 생성
set.seed(123)
data <- data.frame(
  Original = rnorm(100, mean = 50, sd = 10)
)

# 정규화
data$Normalized <- (data$Original - min(data$Original)) / (max(data$Original) - min(data$Original))

# 표준화
data$Standardized <- (data$Original - mean(data$Original)) / sd(data$Original)

# 도표 생성
ggplot(data) +
  geom_histogram(aes(x = Original, y = ..density..), binwidth = 1, fill = "blue", alpha = 0.5) +
  geom_histogram(aes(x = Normalized, y = ..density..), binwidth = 0.05, fill = "green", alpha = 0.5) +
  geom_histogram(aes(x = Standardized, y = ..density..), binwidth = 0.5, fill = "orange", alpha = 0.5) +
  labs(title = "Original, Normalized, and Standardized Data Distributions", x = "Value", y = "Density") +
  theme_minimal()
  • 평균이 50이고 표준편차가 10인 데이터는 파란색의 분포를 보인다. 이를 0~1의 범위로 정규화하면 녹색의 분포를 보이고, 마지막으로 평균을 0으로 표준편차를 적용하여 노란색으로 표현이 가능하다.

0개의 댓글

관련 채용 정보