맥 말고 윈도우로 쓰는 벨로그는 ... UI가 너무 다르고 딱딱한 것 같다... 마크다운도 미리보기에서는 너무... 굴림체 아니오?
📝 오늘 공부한 내용
CatBoost
- Categorical feature에 대해서 학습이 잘 되도록 설계되어 있다.
언제 어떤 모델을 사용해야 할까?
데이터의 갯수를 살펴보자!
- 데이터의 갯수가 10000개 이하라면 XGBoost, 이상이라면 LightGBM
- categorical feature가 50% 이상이라면 CatBoost를 사용한다
--> 개인의 관점에 따라 비율, 파라미터 튜닝하면 상관없다 이렇게 말하는 사람도 있으니 적당히 상황을 살펴 볼 것!
데이터 수집 및 정제
이 부분은 나중에 토스 테크토크를 확인해서 채워넣을 필요가..
- Data Lake: data source에서 발생하는 거의 보든 데이터를 수집하는 DB -> NoSQL
- Data Warehouse: data lake에서 필요한 데이터를 정리해서 적재하는 DB -> OracleDB
- Data Mart: 필요에 의해 (분석 목적에 맞게 맞든 DB) -> RDB
🌷 느낀점
강사님의 강의를 들으면서 요새 느끼는 점은 '이게 뭔 소리야..이거 지금 왜 배우는거야'이러지만 언젠가는 다시 돌아오는.. DE기초 공부도 열심히 해야지