[AI 02] Classification, Jupyter Notebook

Bora Kwon·2022년 4월 5일
0

개발일지

목록 보기
10/14

Classification (분류)

  • 붓꽃 품종 예측 실습
    4개 변수(꽃받침 조각 길이, 넓이, 꽃잎 길이, 넓이)로 3개 품종의 붓꽃을 예측한다.


Box Plot을 사용하여 살펴보면

Sepal width와 같은 데이터는 겹치는 부분이 많아 변별력이 떨어지고

Petal width 데이터는 변별력이 확실해 보인다.

Tree를 구성해서 Tree Viewer로 보면

이렇게 Tree로 볼 수도 있다.

Test and Score로 보면 정확도가 92% 정도 나온다.

Test and Score에 Confusion Matrix를 연결해서 보면 TP, FP, TN, FN을 볼 수 있다. Iris-Setosa는 100 모두를 Iris-setosa로 맞추었다. Iris-versicolor는 Iris-virginica로 잘못 맞춘 것이 11개, 반대도 11개임을 볼 수 있다.

Logistic Regression으로 보니 정확도가 더 높아졌다. 이름에 Regression이 들어가긴 하지만 회귀 알고리즘이 아니고 회귀 기법을 사용하는 Classification이다.

각종 평가 지표

  • Precision(정밀도) : 모델이 True라고 분류한 것 중 실제 True인 비율
  • Recall(재현율) : 실제 True인 것 중에서 모델이 True라고 예측한 비율
  • Accuracy(CA, 정확도) : True를 True로, False를 False로 예측한 비율
  • F1 score : Precision과 Recall의 조화평균
  • Fall-out : 실제 False인 것을 모델이 True라고 예측한 비율
  • ROC(Receiver Operating Characteristic) Curve : 여러 임계치들을 기준으로 Recall-Fallout의 변화를 시각화한 것
  • AUC(Area Under Curve) : ROC 그래프 아래의 면적. CA와 같은 의미임.


데이터 샘플러에서 보면 데이터의 비율로 학습, 테스트를 나누거나 갯수로 나누거나 서로서로 검증하는 Cross Validation 기법을 사용하도록 설정할 수도 있다.


Data Sampler로 120/30개로 데이터를 나눈 후 각 데이터를 Test Data와 Data로 Test and Score 위젯으로 넘겨주고, Test and Score는 Tree 모델을 적용한 후 지표를 볼 수 있다. Confusion Matrix를 연결하면 테스트 데이터 30개 중 몇 개나 맞추고 틀렸는지 표로 확인할 수 있다.

이미지 분석

Orange에서 Options-Add ons 를 선택하여 Image Analytics 위젯을 다운로드 받고 Orange를 재시작하면 Image Analytics를 사용할 수 있다.

Azure Cognitive Services

Jupyter Notebook 사용


Anaconda를 설치하고 cmd에서 jupyter notebook이라 입력하면 jupyter 화면이 뜬다. 폴더를 설정하고 Python 파일을 만들면 위와 같이 jupyter notebook 파일이 열린다.
여기에서 python 코드를 실행해볼 수 있다.

이미지 불러오기에 성공했다.

profile
Software Developer

0개의 댓글