






꽃잎(petal), 꽃받침(sepal)의 길이/너비 정보를 이용해서 이 3종의 품종을 구분할 수 있을까?
로널드 피셔의 iris 데이터

iris 데이터를 불러보자

sklearn의 datasets은 Python의 dict 형과 유사하다

DESCR

target_names / target

feature_names / data


• 데이터를 바로 딥러닝에 적용하거나
• sklearn을 이용한 머신러닝에 적용할 때 꼭 필요한 것은 아니지만,
• 데이터를 정리해서 관찰할 때는 아주 유용한 도구가 pandas
• 미국식 농담으로 (pandas : 스테로이드 맞은 엑셀~)

boxplot (x='sepal length (cm) & 'sepal width (cm)')

boxplot (x='petal length (cm) & 'petal width (cm)')

pairplot

pairplot 중 일부만 집중적으로 확인

petal length (cm) x petal width (cm)






상황 설정 : setosa 구분은 잘 되지만 나머지 두 종의 구분선을 어떻게 찾을 것인가
데이터 변경 : setosa 제외

학습을 위해 두 개의 데이터에 집중

저 경계선이 어디에 있는게 최선일까?




2007년 구글 썸머 코드에서 처음 구현
현재 파이썬에서 가장 유명한 기계 학습 오픈 소스 라이브러리
sklearn을 이용한 결정나무의 구현

Accuracy 확인
