[AIS7] ML (12)

BBakHye·2022년 11월 23일

🦁 AI SCHOOL 7기

목록 보기

33/52

🤔 제조업에서 데이터 과학과 머신러닝이 어떤 도움을 줄 수 있을까?

1) 품질 관리
제품의 생산 과정에 영향을 미칠 수 있는 다양한 변수들을 모델 안에서 계산하고 통제할 수 있다. 이를 통해서 안정적인 생산과 공급이 가능해진다.
2) 예방 정비
장비가 고장나기 전에 징후를 통해 고장 시기를 예측하고 예방 정비를 할 수 있도록 돕는다. 장비 고장으로 인한 생산량 저하를 방지하고, 장비 정비에 드는 시간을 줄일 수 있다.
3) 수요 예측
정확하게 수요를 예측함으로써 생산 계획을 구축하는 데 도움이 된다. 구체적인 생산 계획은 생산의 효율성 뿐 아니라 수익성을 높일 수 있다.
4) 프로세싱 조건
생산 과정에서 여러 변수들의 역학관계 파악을 자동화하여 공정을 최적화할 수 있다.
5) 연구 개발
생산 과정에서 얻어낸 빅데이터와 이를 기반으로 한 머신러닝은 새로운 제품을 개발하거나 다른 기업과 협업할 때 좋은 기반이 된다.
6) 스마트 제품
제품의 생산 과정을 모델화함으로써 개별 고객에 맞춤형 제품을 제공할 수 있게 된다.

Bagging: 오버피팅을 방지하기 위해 사용
Boosting: 개별 트리의 성능이 중요할 때 사용

Boosting model은 시각화가 가능하다. 순차적으로 트리를 그리기 때문에 "몇 번째 트리 그려줘"라고 하면 해당 트리를 시각화할 수 있음.

❗️ Gradient 모델은 learning rate을 어떻게 설정하느냐에 따라 성능에 차이가 있음

🤔 XGBoost

XGBoost는 GBT에서 병렬 학습을 지원하여 학습 속도가 빨라진 모델

기본 GBT에 비해 더 효율적이고, 다양한 종류의 데이터에 대응할 수 있으며 이식성이 높다.

💡 부스팅 파라미터

learning_rate[ 기본값 : 0.1] : Learning rate가 높을수록 과적합되기 쉬움
n_estimators [기본값 : 100] : 생성할 weaker learner 수, learning_rate가 낮을 땐, n_estimators를 높여야 과적합이 방지됨, value가 너무 낮으면 underfitting이 되고 이는 낮은 정확성의 prediction이 되는반면 value가 너무 높으면 overfitting이 되고 training data 에는 정확한 prediction을 보이지만 test data에서는 정확성이 낮은 prediction을 가짐
max_depth [ 기본값 : 3 ] : 트리의 maximum depth, 적절한 값이 제시되어야 하고 보통 3-10 사이 값이 적용됨, max_depth가 높을수록 모델의 복잡도가 커져 과적합되기 쉬움
min_child_weight [ 기본값 : 1 ] : 관측치에 대한 가중치 합의 최소를 말함, 값이 높을수록 과적합이 방지됨
gamma [ 기본값 : 0 ] : 리프노드의 추가분할을 결정할 최소손실 감소값, 해당값보다 손실이 크게 감소할 때 분리, 값이 높을수록 과적합이 방지됨
subsample [ 기본값 : 1 ] : weak learner가 학습에 사용하는 데이터 샘플링 비율, 보통 0.5 ~ 1 사용됨, 값이 낮을수록 과적합이 방지됨
colsample_bytree [ 기본값 : 1 ] : 각 tree 별 사용된 feature의 퍼센테이지, 보통 0.5 ~ 1 사용됨, 값이 낮을수록 과적합이 방지됨

💡 일반 파라미터

booster [기본값 = gbtree] : 어떤 부스터 구조를 쓸지 결정, 의사결정기반모형(gbtree), 선형모형(gblinear), dart
n_jobs : XGBoost를 실행하는 데 사용되는 병렬 스레드 수
verbosity [기본값 = 1] : 로그출력여부 0 (무음), 1 (경고), 2 (정보), 3 (디버그)
early_stopping_rounds : 손실함수 값이 n번정도 개선이 없으면 학습을 중단

💡 학습과정 파라미터

eval_metric:
- rmse: root mean square error
- mae: mean absolute error
- logloss: negative log-likelihood
- error: Binary classification error rate (0.5 threshold)
- merror: Multiclass classification error rate
- mlogloss: Multiclass logloss
- auc: Area under the curve
- map (mean average precision)

💡 민감하게 조정해야하는 것

booster 구조
gbtree : 의사결정기반모형, gbliber : 선형모형, dart
eval_metric(평가함수) / objective(목적함수)
eta
L1 form (L1 레귤러라이제이션 폼이 L2보다 아웃라이어에 민감)
L2 form

💡 과적합 방지를 위해 조정해야하는 것

n_estimators 높이기
learning rate 낮추기
max_depth 낮추기
min_child_weight 높이기
gamma 높이기
subsample, colsample_bytree 낮추기

🤔 LightGBM (Light Gradient Boosting Machine)

: Microsoft에서 개발한 머신러닝을 위한 무료 오픈소스 분산 그래디언트 부스팅 프레임워크

XGBoost에 비해 성능은 비슷하지만 학습 시간을 단축시킨 모델이다.
XGBoost에 비해 더 적은 시간, 더 적은 메모리를 사용한다.

EFB(Exclusive Feature Bundling) & GOSS(Gradient based One Side Sampling)

GOSS: 행을 줄인다.

특성값을 구간으로 나누어 노드 분할을 하기 때문에 빠름
기본적으로 256개의 구간을 사용하며, max_bin 으로 조정이 가능
구간 중 하나를 누락된 값을 위해 사용하기 때문에 결측치를 전처리할 필요가 없음

EFB: 열을 줄인다.

일반적인 GBM 계열의 트리 분할 방식은 균형 트리 분할(Level Wise) 방식을 이용

장점: 최대한 균형 잡힌 트리를 생성하면서 트리의 깊이를 최소화 할 수 있음
단점: 과적합 문제에 더 강한 구조를 갖게 되지만 균형을 맞추기 위한 시간이 필요하다는 단점

반면에,

LightGBM의 경우 일반적인 균형 트리 분할 방식과 다르게 리프 중심 트리 분할(Leaf Wise) 방식을 이용
균형을 맞추지 않고 최대 손실 값(max delta loss)을 가지는 리프 노드를 지속적으로 분할하여 트리가 깊어지고 비대칭적인 트리 구조 생성하여 예측 오류 손실을 최소화

💡 Parameters

max_depth : 나무의 깊이. 단일 결정나무에서는 충분히 데이터를 고려하기 위해 depth를 적당한 깊이로 만들지만, 보정되기 때문에 부스팅에서는 깊이 하나짜리도 만드는 등, 깊이가 짧은것이 크리티컬하지 않음
min_data_in_leaf : 잎이 가질 수 있는 최소 레코드 수, 기본값은 20, 과적합을 다루기 위해 사용 feature_fraction : 부스팅 대상 모델이 랜덤포레스트일때, 랜덤포레스트는 feature의 일부만을 선택하여 훈련하는데, 이를 통제하기 위한 파라미터, 0.8이라면 LightGBM이 각 반복에서 80%의 파라미터를 무작위로 선택하여 트리를 생성
bagging_fraction : 데이터의 일부만을 사용하는 bagging의 비율 예를들어 오버피팅을 방지하기 위해 데이터의 일부만을 가져와서 훈련시키는데, 이는 오버피팅을 방지하며 약한예측기를 모두 합칠경우는 오히려 예측성능이 좋아질 수 있음 훈련 속도를 높이고 과적합을 방지하는 데 사용
early_stopping_round : 더이상 validation데이터에서 정확도가 좋아지지 않으면 멈춰버림 훈련데이터는 거의 에러율이 0에 가깝게 좋아지기 마련인데, validation데이터는 훈련에 사용되지 않기때문에 일정이상 좋아지지 않기 때문
lambda : 정규화에 사용되는 파라미터, 일반적인 값의 범위는 0 ~ 1
min_gain_to_split : 분기가 되는 최소 정보이득, 트리에서 유용한 분할 수를 제어하는 데 사용
max_cat_group : 범주형 변수가 많으면, 하나로 퉁쳐서 처리하게끔 만드는 최소단위
objective : lightgbm은 regression, binary, multiclass 모두 가능
boosting: gbdt(gradient boosting decision tree), rf(random forest), dart(dropouts meet multiple additive regression trees), goss(Gradient-based One-Side Sampling)
num_leaves: 결정나무에 있을 수 있는 최대 잎사귀 수. 기본값은 0.31
learning_rate : 각 예측기마다의 학습률 learning_rate은 아래의 num_boost_round와도 맞춰주어야 함
num_boost_round : boosting을 얼마나 돌릴지 지정한다. 보통 100정도면 너무 빠르게 끝나며, 시험용이 아니면 1000정도 설정하며, early_stopping_round가 지정되어있으면 더이상 진전이 없을 경우 알아서 멈춤
device : gpu, cpu
metric: loss를 측정하기 위한 기준. mae (mean absolute error), mse (mean squared error), 등
max_bin : 최대 bin
categorical_feature : 범주형 변수 지정
ignore_column : 컬럼을 무시한다. 무시하지 않을경우 모두 training에 넣는데, 뭔가 남겨놓아야할 컬럼이 있으면 설정
save_binary: True 메모리 절약

🤔 CatBoost

기존 알고리즘과 비교하여 순열 기반 대안을 사용하여 범주형 기능을 해결하려고 시도하는 그레디언트 부스팅 프레임워크를 제공프레임워크를 제공

범주형 데이터를 따로 인코딩할 필요가 없지만 모델 훈련시 어떤 데이터가 범주형인지 알려주어야 함.
XGBoost 처럼 깊이별 트리 성장방식을 사용하지만 대칭적인 구조를 가짐
자체적으로 grid_search() 와 randomized_search()를 제공
기존 GBT의 느린 학습 속도와 과대적합 문제를 개선한 모델입니다.

💡 장점
1) 과적합을 극복하기 위해 부스팅 주문
2) 범주형 기능에 대한 기본 처리
3) 빠른 GPU 훈련
4) 모델 및 기능 분석을 위한 시각화 및 도구
5) 과적합을 극복하기 위해 순서가 있는 부스팅을 사용
6) 이름 그대로 범주형 특성을 잘 처리함
7) 더 빠른 실행을 위해 Oblivious Trees 또는 Symmetric Trees 사용

💡 단점
1) CatBoost 는 희소 행렬을 지원 하지 않음
2) 데이터 세트에 수치형 타입이 많을 때 CatBoost는 LightGBM보다 훈련하는 데 상대적으로 많은 시간이 소요

💡 특징

수평트리 (Level-wise Tree)
정렬된 부스팅 (Orderd Boosting)
임의 순열 (Random Permutation)
정렬된 대상 인코딩 (Ordered Target Encoding)
범주형 Feauture 조합 (Categorical Feauture Combinations)
원핫 인코딩 (One-hot Encoding)
최적화된 파라미터 튜닝 (Optimized Parameter tuning)
중복되는 범주형 변수 처리
: Class를 명확하게 구분할 수 있는 중복되는 변수가 2개 이상 존재한다고 할 때, 이를 하나의 변수로 통합해 처리 - 피처가 늘어나는 문제를 줄여 computing cost도 낮출 수 있다.

💡 Main parameters

cat_features: 범주형 변수 인덱스 값
loss_function: 손실 함수를 지정합니다.
eval_metric: 평가 메트릭을 지정합니다.
iterations: 머신러닝 중 만들어질 수 있는 트리의 최대 갯수를 지정합니다.
(다른 모델의 n_estimator와 같다)
learning_rate: 부스팅 과정 중 학습률을 지정합니다.
subsample: 배깅을 위한 서브샘플 비율을 지정합니다.
max_leaves: 최종 트리의 최대 리프 개수를 지정합니다.

0803 실습

(해당 실습은 설치 이슈로 인해 colab으로 진행함)

💡 XGBoost 시각화

xgb.plot_tree(model_xgb, num_trees=1)
fig = plt.gcf()
fig.set_size_inches(30, 20)

💡

데이터가 category 타입으로 되어있으면 LightGBM, CatBoost에서 인코딩이 필요없다.

데이터를 전처리하지 않고 category 형태로 넣어주면 알아서 학습한다.

이진 분류의 평가

정확도(Accuracy)가 높다고 해서 신용하기 어렵다. 희소한 데이터를 정확하게 예측하는 것이, 전체 데이터에 대한 정확도보다 중요할 경우가 있다.

현실에서 마주치는 많은 데이터들이 불균형 데이터이기 때문에 정확도 외에 다른 측정지표가 필요하다.

불균형데이터에서 혼동행렬이 필요한 이유는, 만약에 내가 만든 모델이 특정 질병을 탐지하는 모델이라고 할때 실제로 만들어진 모델이 전부 병에 걸렸다고 판단하는 멍청한 모델이 만들어졌다해도, 실제 샘플 데이터가 100만개가 질병이 걸린 사람의 샘플이고 10개만 질병이 걸리지 않은 사람의 샘플이라면 99.99프로로 내가 만든 모델이 정확하게 작동하는 것 처럼 보일 수도 있습니다. 따라서 이런 Accuracy의 맹점을 보완하기위해 Precision과 Recall 같은 지표가 필요하게 됩니다!

🤔 Confusion Matrix (혼동 행렬) - Scikit-learn 기준

💡 "1종 오류 == 남자 임신" 이라고 생각하면 조금 더 잘 외워질지도..?

TN(True Negative, Negative Negative)
실제는 임신이 아니고(0), 임신이 아닌 것(0)으로 잘 예측함.

FP(False Positive, Negative Positive) - 1종 오류
실제는 임신이 아닌데(0), 임신(1)로 예측
스팸메일이 아닌데 스팸메일로 예측
무고한 피고인에게 유죄를 선고

FN(False Negative, Positive Negative) - 2종 오류
실제는 임신인데(1), 임신이 아닌 것(0)으로 예측
암인데 암이 아닌 것으로 예측
화재가 났는데 화재가 아니라고 예측

TP(True Positive, Positive Positive)
실제는 임신인데(1), 임신(1)으로 잘 예측함.

💡

Precision: 예측값이 1인 것을 기준으로 하는 계산

Recall: 실제값이 1인 것을 기준으로 하는 계산
(TIP) 예프리: 예측 1 == 프리시전, 실리콜: 실제 1 == 리콜

F1 score: precision과 recall의 조화평균

🤔 "정답인데 못 찾은 것이 많다."라는 결과는 언제 나올까?
Recall이 낮을 때

🤔 "정답이 아닌데도 정답이라고 한 것이 많다."라는 결과는 언제 나올까?
Precision 이 낮을 때

🤔 Precision이 중요한 경우
ex) 스팸 메일 검출의 경우
스팸 메일이면 참, 스팸 메일이 아니면 거짓이라고 할 때.
스팸 메일이 아닌데 스팸 메일로 판단해서 차단해버리면 중요한 메일을 받지 못할 수 있다.

🤔 Recall이 중요한 경우
ex) 암 검출의 경우
암이 검출되면 참, 검출되지 않으면 거짓이라고 할 때.
실제로 암에 걸렸는데, 걸리지 않았다고 판단하는 경우가 가장 위험

ex) 지진
지진이 안 났으나 대피명령을 한 것은 생명과는 지장이 없지만 지진이 났는데 대피명령이 없다면 생명에 위험

🙋🏻‍♀️ 질문

Q: 위 테이블에서 기존 트리모델에 없었던 파라미터 중에 중요한 역할을 할것으로 보여지는 파라미터 무엇이 있을까요?
A: learning rate

Q: 왜 learning_rate가 낮을때 n_estimator 값을 높여야 과적합이 방지될까요?
A: 학습하지 말아야 할 것까지 너무 자세히 학습하다 보면 일반화 하기 어렵기 때문에 과대적합이 됩니다.

learning_rate를 줄인다면 가중치 갱신의 변동폭이 감소해서, 여러 학습기들의 결정 경계(decision boundary) 차이가 줄어들게 됩니다. n_estimators( == 트리의 수; 학습횟수) 를 늘린다면 생성하는 약한 모델(weak learner == 각각의 트리)가 늘어나게 되고, 약한 모델이 많아진만큼 결정 경계(decision boundary)가 많아지면서 모델이 복잡해지게 됩니다.
즉, 부스팅알고리즘에서 n_estimators와 learning_rate는 trade-off 관계입니다.
n_estimators(또는 learning_rate)를 늘리고, learning_rate(또는 n_estimators)을 줄인다면 서로 효과가 상쇄됩다.

Q: 부스팅 모델은 왜 오버피팅에 민감할까요?
A: 오답노트방식으로 이전 트리(이전 학습)가 다음 트리(다음 학습)에 영향을 주기 때문에 한번 잘못분류되면 빠져나오기 힘들다.

Q: 배깅 모델은 시각화가 어려워 3rd party 도구를 따로 설치해야 시각화 가능합니다. 그것도 개별 트리를 시각화 하는 것은 어렵습니다. 그런데 부스팅 모델은 왜 시각화가 가능할까요?
A: 배깅모델은 병렬적으로 트리를 여러 개 생성합니다. 그런데 부스팅은 순차적으로 생성하기 때문입니다.

Q: cv에 kfold 를 지정해주면 그냥 cv=숫자를 지정할 때와 어떤 차이가 있게 사용할 수 있을까요?
A: random_state값을 고정할 수 있다.

Q: cat_features를 지정해서 실습한 이유?
A: 전처리, 인코딩 없이 쉽게 해보기 위해

Q: 현실세계의 불균형한 데이터의 예가 무엇이 있을까요?
A: 실생활에 잘 일어나지 않는 일. e.g. 암환자 여부, 생산과정 양불(양품, 불량품)여부, 은행 대출 여부 판단, 자연재해, 게임이나 광고 어뷰징

Q: confusion matrix가 책, 블로그, 위키 그리고 사이트마다 순서가 다 다릅니다. 어떤 기준으로 봐야 할까요?
A: 사이킷런에서도 위키나 책의 순서와 다르게 그려지는데 사이킷런 기준으로 보는게 그나마 덜 혼란스럽습니다.

Q: Precision을 사용해야 할 때?
A: 무고한 피고인에게 유죄 선고

💡 TIP
데이터가 json 형식일 때, pd.read_json 함수를 이용하면 json을 dataframe으로 변환시켜줍니다. 장르는 데이터프레임으로 변환하고 join, merge 를 사용하면 전처리하기 좋습니다!

🦁 질문

Q: precision을 사용해야할 때 중에 약 효과 있음도 있을까요?
A: 약효과가 없는데 있다고 해서 잘못먹어 부작용이 생겼다면 그것도 문제가 될 수 있겠죠. 잘못먹었는데 아무 문제가 없다면 상관 없겠죠. 상황을 보고 판단하는게 맞아보입니다. 그런데 만약 잘못먹어 부작용이 생겼다면 Precision을 봐도 괜찮아 보입니다.