Box Plot을 사용하여 살펴보면
Sepal width와 같은 데이터는 겹치는 부분이 많아 변별력이 떨어지고
Petal width 데이터는 변별력이 확실해 보인다.
Tree를 구성해서 Tree Viewer로 보면
이렇게 Tree로 볼 수도 있다.
Test and Score로 보면 정확도가 92% 정도 나온다.
Test and Score에 Confusion Matrix를 연결해서 보면 TP, FP, TN, FN을 볼 수 있다. Iris-Setosa는 100 모두를 Iris-setosa로 맞추었다. Iris-versicolor는 Iris-virginica로 잘못 맞춘 것이 11개, 반대도 11개임을 볼 수 있다.
Logistic Regression으로 보니 정확도가 더 높아졌다. 이름에 Regression이 들어가긴 하지만 회귀 알고리즘이 아니고 회귀 기법을 사용하는 Classification이다.
각종 평가 지표
- Precision(정밀도) : 모델이 True라고 분류한 것 중 실제 True인 비율
- Recall(재현율) : 실제 True인 것 중에서 모델이 True라고 예측한 비율
- Accuracy(CA, 정확도) : True를 True로, False를 False로 예측한 비율
- F1 score : Precision과 Recall의 조화평균
- Fall-out : 실제 False인 것을 모델이 True라고 예측한 비율
- ROC(Receiver Operating Characteristic) Curve : 여러 임계치들을 기준으로 Recall-Fallout의 변화를 시각화한 것
- AUC(Area Under Curve) : ROC 그래프 아래의 면적. CA와 같은 의미임.
데이터 샘플러에서 보면 데이터의 비율로 학습, 테스트를 나누거나 갯수로 나누거나 서로서로 검증하는 Cross Validation 기법을 사용하도록 설정할 수도 있다.
Data Sampler로 120/30개로 데이터를 나눈 후 각 데이터를 Test Data와 Data로 Test and Score 위젯으로 넘겨주고, Test and Score는 Tree 모델을 적용한 후 지표를 볼 수 있다. Confusion Matrix를 연결하면 테스트 데이터 30개 중 몇 개나 맞추고 틀렸는지 표로 확인할 수 있다.
Orange에서 Options-Add ons 를 선택하여 Image Analytics 위젯을 다운로드 받고 Orange를 재시작하면 Image Analytics를 사용할 수 있다.
Anaconda를 설치하고 cmd에서 jupyter notebook이라 입력하면 jupyter 화면이 뜬다. 폴더를 설정하고 Python 파일을 만들면 위와 같이 jupyter notebook 파일이 열린다.
여기에서 python 코드를 실행해볼 수 있다.
이미지 불러오기에 성공했다.