데이터가 너무 적을 때는 회귀가 도움이 될 수 있음.
필요없는 특성들의 영향을 확 줄여줄 수 있음.
실전에서 많이 사용 됨. +엘라스틱 넷
차이점
릿지=중요하지 않은 특성들을 0에 가깝게
라쏘=아예 0으로 만들어 버림
1하고 0만 가지도록, 레이블의 가지수가 많아지면 특성도 많아지는데, 성능이 떨어질 수 있음.
언제 홀드아웃을 사용하는지 언제 교차검즘을 하는지 잘 정리하기
머신러닝의 여러 모델들은 Over fitting 방지하고자함
평가지표들이 어떻게 쓰이는지, 분류 회귀 문제에서 확인
언제 어떻게 쓰이는지
overfitting 확인하기 위해서 많이 쓰임
처음에는 손으로 직접 조절해보는게 공부하기에는 더 좋음.
타겟 정보의 누수
데이터의 히스토리를 모를 때
데이터 누수를 찾는
가장 빠른 방법은: 최대한 빠르게 테스트해보는 것
튜닝도 하지 않았는데 성능이 너무 높으면 : 누수 의심해보기
클래스가 불균형할 때는 평가지표도 유의해서 사용해야한다.
-위는 R에서의 랭글링임
-특성 공학에 포함 된다고 볼 수 있음.
가장 좋은 성능을 기대할 수 있음.
잔차를 점점 줄여나가는 게 배깅이랑 다른 점.