Decision Tree를 이용한 와인 데이터 분석

JERRY·2025년 4월 2일
0

Machine Learning

목록 보기
5/31
post-thumbnail

Wine 데이터 분석

Wine 데이터

  • 분류 문제에서 많이 사용하는 Iris 꽃 데이터만큼 알려지진 않았지만, 와인데이터도 많이 사용한다.
  • 인류 역사에서 최초의 술로 알려져 있다.
  • 기원전 7000년 무렵 조지아-아르메이나-터키 동북부 (코카서스) 에서 흔적이 발견
  • 신이 인간에게 내려준 선물 중 포도주만큼 위대한 가치를 지닌 것은 없다 - 플라톤

그런데 와인 맛은 어떻게 분류 하지?

와인 데이터 받기


데이터 확인

데이터 읽어오기

Column 확인(동일한 구조)

Concat(red_wine + white_wine)

Quality column 확인

Histogram

와인별 등급 (red+white) Histogram

(참고) plotly.express는 아주 간편하고 강력한 기능을 제공


레드 와인 / 화이트 와인 분류기

라벨 분리 + 데이터 분리(훈련용/테스트용)

훈련용과 테스트용이 레드/화이트 와인에 따라 어느정도 구분되었을까

결정나무 훈련 + 학습 결과

데이터 전처리 - MinMaxScaler & StandardScaler

와인 데이터의 몇 개 항목의 Boxplot을 그려보자

컬럼들의 최대/최소 범위가 각각 다르고, 평균과 분산이 각각 다르다.
특성(feature)의 편향 문제는 최적의 모델을 찾는데 방해가 될 수도 있다.

이럴 때 쓰는 것이 MinMaxScaler와 StandardScaler

결정나무에서는 이런 전처리는 의미를 가지지 않는다.
주로 Cost Function을 최적화할 때 유효할 때가 있다.
MinMaxScaler와 StandardScaler 중 어떤 것이 좋을지는 해봐야 안다.

MinMaxScaler는 뭘까?

: 최대 최소값을 1과 0으로 강제로 맞추는 것

StandardScaler는?

: 평균을 0으로 표준편차를 1로 맞추는 것

MinMaxScaler를 적용해서 다시 학습

StandardScaler를 적용해서 다시 학습

결정나무는 화이트와인과 레드와인을 어떻게 구분할까?

total sulfur dioxide가 중요한 역할을 하나보다.
total sulfur dioxide → 총 이산화황~ TSO2

레드와인과 화이트와인을 구분하는 중요 특성?

(MaxDepth를 높이면 저 수치에도 변화가 온다.)


와인 맛에 대한 분류 - 이진 분류

quality 컬럼을 이진화

레드/화이트 와인 분류와 동일 과정을 거치자

응? 100프로? 가능한가?

왜 이런 일이 생겼는지 확인해보자

앗 . Quality… quality 컬럼으로 taste 컬럼을 만들었으니 quality 컬럼은 제거 했어야 했다.

quality 컬럼은 제거 후 재실행

어떤 와인을 “맛있다”고 할 수 있나?

0개의 댓글