머신러닝 (3)

MSMoon·2025년 4월 18일
0

데이터 이론 학습

목록 보기
13/27
post-thumbnail

Chapter 5 와인 데이터 분류

  • 레드와인/화이트와인 두 종류의 데이터셋 존재

  • 두개의 데이터를 합칠때 각각을 구분할 수 있는 부분이 필요함

  • Boxplot을 통해 와인 데이터 항목들을 그렸을 때, 컬럼들의 최대, 최소 범위가 각각 다르고 평균과 분산이 각각 다름

  • 특성의 편향 문제는 최적 모델을 찾는데 방해가 됨

  • 이런 문제가 발생할 때 MinMaxScaler/StandardScaler을 사용

MinMaxScaler, StandardScaler

  • MinMaxScaler는 0부터 1까지 범위
  • StandardScaler는 평균값을 0으로, 표준편차를 1로 둔 것

Image에서는 MinMaxScaler가 유리한 경향을 가짐

이진 분류로 와인 맛 분류

  • 6단계로 구분된 Quality를 맛있음/맛없음으로 이진화
  • 조건을 등급이 5보다 크면 맛있다고 설정하면 100%가 나옴

-> 잘못된 정보를 넣어주면 정확도가 아무리 높아도 아무 소용 없음

와인분류

Chapter 6 Label Encoder와 Scaler

Label Encoder

  • 대상이 되는 문자로 된 데이터를 숫자-카테고리컬한 데이터로 fit 한 후에 transform을 하면 변환됨

Min-Max Scaling

Standard Scaler

Robust Scaler

Label encoder, Scaler

이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글