Section 2_ML_Wrap up

dot_trigger·2021년 11월 15일
0


데이터가 너무 적을 때는 회귀가 도움이 될 수 있음.

필요없는 특성들의 영향을 확 줄여줄 수 있음.
실전에서 많이 사용 됨. +엘라스틱 넷
차이점
릿지=중요하지 않은 특성들을 0에 가깝게
라쏘=아예 0으로 만들어 버림



1하고 0만 가지도록, 레이블의 가지수가 많아지면 특성도 많아지는데, 성능이 떨어질 수 있음.

언제 홀드아웃을 사용하는지 언제 교차검즘을 하는지 잘 정리하기

머신러닝의 여러 모델들은 Over fitting 방지하고자함


평가지표들이 어떻게 쓰이는지, 분류 회귀 문제에서 확인
언제 어떻게 쓰이는지

overfitting 확인하기 위해서 많이 쓰임

처음에는 손으로 직접 조절해보는게 공부하기에는 더 좋음.


타겟 정보의 누수
데이터의 히스토리를 모를 때

데이터 누수를 찾는
가장 빠른 방법은: 최대한 빠르게 테스트해보는 것

튜닝도 하지 않았는데 성능이 너무 높으면 : 누수 의심해보기

클래스가 불균형할 때는 평가지표도 유의해서 사용해야한다.


-위는 R에서의 랭글링임

-특성 공학에 포함 된다고 볼 수 있음.

가장 좋은 성능을 기대할 수 있음.
잔차를 점점 줄여나가는 게 배깅이랑 다른 점.





profile
개(발)린이

0개의 댓글