선형 회귀 모델을 가장 많이 사용한다는 것을 알 수 있다.
사이킷런이 가장 많이 사용되지만, Fast.ai는 Keras를 공식 툴로 채택했다.
XGboost는 트리를 따라 선택하여 손실을 ㅊ ㅚ소화한다.
Catboost
PyCaret는 파이썬을 한번 둘러싼 라이브러리이다. Auto Ml에 가까우며, 여러 라이브러리 활용으로 결과를 보여준다. 추상화가 잘 된 상태.
H2O는 수동 코드 작성 시간을 줄이고자 하며, 훈련 데이터셋을 클러스터로 확장한다.
SVC - support vector machine
라벨이 붙은 데이터를 학습시킨다. 지도학습에 해당.
범주형 데이터의 분석
라벨이 붙지 않은 데이터를 학습시킨다. 비지도 학습에 해당. 라벨 자체를 찾는 학습도 가능 (파이썬 라이브러리를 활용한 머신러닝 참고)
방대한 데이터. 속도 개선을 통해 효율을 높인다.
최적화 모델 선택. 테스트 데이터셋도 중요. 모델 성능 추정과정.
특징 추출, 정규화.
pandas에서는 정규화 활용 시 0에서 1 사이의 값으로 표현 가능 - 백분율까지 연결 가능.
문자열 자체를 인식시킬 수는 없음.
17개의 알고리즘. Unsupervised Ml에는 6개의 알고리즘 존재. 리니어 알고리즘 내에서만 해도 18개의 알고리즘 존재.
Seaborn이 Matplotlib을 감싼 것 처럼, Tensorflow를 사용하기 쉽게 감싸놓은 것이 Keras.
(1) AI 블랙박스 문제를 해결하기 위한 연구.
(2) 모델을 어떻게 잘 설명하면 되는 지에 대한 부분.
(3) 예측 가능성에 대해 시각화
Ex. Yellow brick algorithm
(4) 순열 중요도
(1) Explain Like I'm 5 ! !
(2) 모델을 만든 후, 왜 모델이 이렇게 예측했는지 시각화하여 설명.
(1) 표본이 50개보다 많으면 범주 예측으로 넘어간다.
(2) Labeling은 정답의 유무를 의미한다.
(3) 정답이 있으면 분류나 회귀모델.
(4) 정답이 없으면 군집화나 차원축소.