꽃잎(petal), 꽃받침(sepal)의 길이/너비 정보를 이용해서 이 3종의 품종을 구분할 수 있을까?
로널드 피셔의 iris 데이터
iris 데이터를 불러보자
sklearn의 datasets은 Python의 dict 형과 유사하다
DESCR
target_names / target
feature_names / data
• 데이터를 바로 딥러닝에 적용하거나
• sklearn을 이용한 머신러닝에 적용할 때 꼭 필요한 것은 아니지만,
• 데이터를 정리해서 관찰할 때는 아주 유용한 도구가 pandas
• 미국식 농담으로 (pandas : 스테로이드 맞은 엑셀~)
boxplot (x='sepal length (cm) & 'sepal width (cm)')
boxplot (x='petal length (cm) & 'petal width (cm)')
pairplot
pairplot 중 일부만 집중적으로 확인
petal length (cm) x petal width (cm)
상황 설정 : setosa 구분은 잘 되지만 나머지 두 종의 구분선을 어떻게 찾을 것인가
데이터 변경 : setosa 제외
학습을 위해 두 개의 데이터에 집중
저 경계선이 어디에 있는게 최선일까?
2007년 구글 썸머 코드에서 처음 구현
현재 파이썬에서 가장 유명한 기계 학습 오픈 소스 라이브러리
sklearn을 이용한 결정나무의 구현
Accuracy 확인