Sprint Challenge 3

제이브로·2021년 12월 7일
2

AI부트캠프

목록 보기
17/32
post-thumbnail

Sprint Challenge 3


Linear Algebra


❗ K-means Clustering이 Data Science에서 정말 중요하다

1. 표준화·정규화

Q . 표준화란?
A . 표준화는 데이터의 평균을 0, 분산 및 표준편차를 1로 만들어준다.

  • Q . 표준화를 하는 이유?
    A .
    • 서로 다른 통계 데이터들을 비교하기 용이하기 때문에
    • 표준화를 하면 평균은 0, 분산과 표준편차는 1로 만들어 데이터의 분포를 단순화 시키고, 비교를 용이하게한다.
  • EX . 평소 수학 50점을 맞을까 말까 하던 박군이 어느날 갑자기 90점을 맞아 부모님은 뛸듯이 기뻐하셨다. 하지만, 그 기쁨은 오래가지 못했다. 이번 시험은 유난히 쉬워서 반평균이 95점이었고 여전히 꼴지이기 때문이다.

1.1 표준화 code

  • 표준화를 하기 위해서는 string 데이터가 없어야한다.
# StandardScaler로 데이터 정규화
scaler = StandardScaler()
df_std = scaler.fit_transform(df)


👉 과정 한눈에 보기

profile
기록하지 않으면 기록되지 않는다.

0개의 댓글