오늘 한 것
- 테크니컬 글쓰기 특강 듣기
- sprint challenge
- 인프런 ROC, AUC 강의 끝까지 다 듣기
sprint wrap up :
n221
트리모델과 선형모델을 비교해봤을때 어떤점이 더 좋았나요?
- 간결하다
- 원핫인코딩보다 오디널 인코딩 쓸 수 있어서 좋았다
- 표준화 안해도 되서 좋았다
- 특성선택을 알아서 해줘서 편하다
트리모델이 가지고 있는 단점은 뭐라고 생각하나요?
- 과적합이 되기 쉽다
- 하이퍼파라미터가 선형회귀보다 많다
- 변수 영향력이 선형회귀에 비해 해석이 어렵다
- 데이터가 아주 적을때는 학습이 어렵다
기타
- 사이킷런 Pipelines
- 지니불순도 (트리를 만드는 기준)
- 엔트로피 (트리를 만드는 기준)
- 특성상호작용 (트리모델에서는 상호작용이 의미가 없어진다?) ❓
선형모델은 각 feature가 독립적이여야 결과가 잘 나온다. 하지만 트리모델에서는 아니다! (노트 다시 확인해보기)
n222
- 랜덤포레스트 (실무에서도 많이 사용할 중요한 알고리즘이다!)
- 앙상블 모델에서는 전체의 트리의 모양은 확인 할 수 없다. 따라서 어떻게 이런 결과를 내는지 알 수 없다. (블랙박스 모델)
- 배깅 : 부트스트랩한 데이터를 가지고 모델을 돌리고서 결과를 합친다
- oobscore은 샘플이 적을때 유용하다!
- ordinal Encoding
- 과적합 -> 새로운 데이터에 대한 분류에 약함 / 랜덤성 -> 학습을 다양한 방법으로 하면서 새로운 데이터에 대한 학습에도 편향을 줄여주는? 역할을 하는거같아요
n223
- 베타값이 올라갈 수록 recall값에 가중치를 줌
n224
(..)
내일 할 것
🤚 완료하지 못한 것들
- 블로그 정리 (precision, recall, 임계값)
- 깃허브 커밋하는 과정 한번 찾아보기
- decision tree 강의 듣기