
데이터 분석을 공부하는 사람이라면 'Kaggle'에 대해서 한 두번씩 들어봤을 것이다.

캐글을 처음 들은 것은 데이터 분석 공부를 이제 막 하기 시작한 2022년도..
데싸들이 자신의 능력을 겨루는 결투장이라는 소리를 듣고 당당히 입장했으나 언어의 장벽에서 1차 무너지고, 사람들이 짜낸 코드를 보고 완벽히 무너졌다.

그렇게 다음을 기약하며 캐글을 멀리하고 있을 때에...머신러닝 스터디를 시작하며 캐글에서 필사를 시작했다. 이제 본격적으로 캐글에서 코드를 찾고 팀원들과 공유하며 나름 짱멋진 캐글러가 될 줄 알았다

저기 보이는 FITB와 필사 대부분 캐글에서 코드를 가져와 팀원들과 공유하며 스터디를 진행했다.
저것 외에도 다양한 코드들과 스터디 내용들이 내 git에 정리되어 있으니 관심있는 분들은 한 번씩 둘러보시길..! Danssi26 Git

하지만 캐글에 들어가면 들어갈수록 궁금증과 혼란스러움은 배가 되었고, 설상가상으로 캐글은 사이트 내 튜토리얼도 없기 때문에 울며 겨자먹기로 국내 블로그와 해외 블로그를 전전하며 캐글에 대해 공부했다.
그러던 중

짱 멋진 캐글러가 되기 위한 노하우 책이 길벗에서 출판되었다.
캐글 메달리스트가 알려주는 캐글 노하우
과거의 캐글에 대해서 들어만보았지 나처럼 어떻게 시작할지 막막한 사람들에게 이 책은 정말 세세한 가이드라인이라고 할 수 있다.
1장은 캐글에 대한 설명부터 시작한다.
어느 수준으로 써져있냐면 책을 읽는 사람이 캐글에 대해 처음 들어봤어도 이해가 될만한 수준으로 말이다. 아래는 'Competiton 카드'에 대한 설명을 저자가 작성해놓았는데 이정도면 이 책이 얼마나 친절한지 충분히 설명가능 할 것이라고 생각한다.


캐글러라면 눈에 익을 타이타닉 Competetion 메인 페이지를 가져와봤다.
책에서는 하단의 카탈로그에 있는 'Overview', 'Data'.. 등 하나하나 어떤 요소들이 들어있고 어떤 점을 중요하게 봐야하는지까지 적혀있다. 절친한 친구라도 이 정도까지 설명해주지 않을 것 같은 생각이 들 정도로 이 책은 친절하게 설명되어 있다.
과거 캐글을 활용한 필사공부를 4개월정도 진행했었음에도 불구하고 몰랐던 것들을 덕분에 습득할 수 있었다. 지금이라도 알아서 다행이다.^^
추가적으로 좋았던 점은 ✒️'note' 인데 쉽게 말하면 tip! 같은 것들이 글 여기저기에 작성되어 있다. 저자가 제공하는 'note' 들은 당연한 것들이라기보단 캐글 고인물(?)들의 뼈가 되고 살이 되는 노하우라는 느낌을 받았다.

캐글을 활용해 코드 필사를 하는 사람들이 많을 것이다. 과거의 나도 캐글에서 코드를 필사했던 것처럼 필사를 통해 공부하는 사람들이 많을 것이라고 어렴풋이 알고 있다.
읽다보면 나오는 '잘못된 필사' 항목에 적혀있는 내용은 실제로 캐글을 통해 필사를 공부하는 사람들에게 시간 낭비하지 않고 효과적인 필사란 무엇인지 그 방법에 대해 알려준다. 이것 외에도 다양한 note들 모두 개인적으로 도움이 크게 될 것이라고 생각됐다.
1장이 끝나고 2장 부터 7장까지는 실제 각각의 캐글 마스터들이 어떤 대회에 출전하여 어떤 솔루션을 내놓았고 어떤 결과를 냈는지 상세하게 설명되어있다.
각각의 챕터는 실습이 가능하게끔 캐글 노트북 링크를 제공하고 있어 손쉽게 코드를 살펴볼 수 있어 번거롭게 검색하고 찾는 과정을 생략할 수 있었다.

캐글짱들의 노하우들을 세세하게 살펴볼 수 있었는데 상단의 그림은 kaggle의 'Instant Gratification' 대회에 출전한 캐글짱이 어떤 솔루션을 사용했는지 요약한 그림이다. 여기에서 그치지 않고 하나하나 사용한 모델에 대해 자세히 설명해주는데 궁금하다면 책을 읽어보기를 추천한다. 난 정말 만족했다.
🥇대회목록은 다음과 같다.
1. Instant Gratification
2. IEEE-CIS Fraud Detection
3. Quick, Draw! Doodle Recognition
4. Bengali.AI Handwritten Grapheme Classification
5. SIIM-ACR Pneumothorax Segmentation
6. Jigsaw Unintended Bias in Toxicity Classification
IEEE-CIS Fraud Detection는 사기 거래 탐지와 관련된 Competition이었는데 머신러닝 스터디를 마무리하며 DACON에서 신용카드 사기거래 탐지 관련 대회에 참가 했던 기억이 새록새록 올라와 읽으면서 즐거웠다.
대회 주최 배경과 목적을 파악하는 것이 1순위로 중요하다는 것을 상기시키며 저자는 지불 거절이라는 개념을 설명한다. 언제나 머릿속에서는 대회 주최 배경과 목적을 알고 있어야한다고 이해하지만 실제로는 문제를 풀기위해 달려들기 급급했던 나 자신을 반성하는 좋은 기회였다...
코드 풀이에 대한 설명도 좋았지만 이렇게 대회를 충분히 즐기기 위해 어떤 것들을 유념해야하는지 알려주는 것도 굉장히 마음에 들었던 점 중 하나였다.
솔직히 구구절절 다 쓰고 싶은데 저작권 문제도 있고 출판사의 부흥을 위해 여기까지만 쓰겠다.
결론적으로 2장부터 7장까지의 챕터는 코드를 어떻게 짜면 좋을지 저자들의 생각과 노하우를 엿볼 수 있다는 점이 좋았다. 저자들이 쓴 솔루션 외에도 같은 대회에서 1등을 한 솔루션 등 다양한 다른 솔루션들도 함께 설명해준 덕에 시야를 넓힐 수 있었다.
마지막 8장은 캐글 노트북 작성을 위한 팁이다.
캐글 노트북이 하나의 콘텐츠이며 좋은 노트북을 만들수록 Upvote를 받고 숫자에 따라 메달을 획득할 수 있다는 사실을 처음 알게 됐다. 메달 획득이 목표인 사람들은 이 챕터에 큰 관심을 가지지 않을까 생각한다. 난 캐글 초보이기 때문에 흥미롭게 읽기만 했다.
언젠가는 캐글 마스터가 되서 콘텐츠까지 하나하나 신경쓰는 그럼 짱이 되고 싶다.

결론적으로 캐글에 대한 관심이 많지만 갈팡질팡하고 계신 분들, Competiton 에 이미 참여하고 있으며 더 좋은 성적을 내고 싶은 분들 모두를 만족시킬 수 있는 책이라고 생각한다.
이 책을 읽는 모든 사람들이 캐글 짱, 캐글 마스터가 될 수 있기를 바라며 글을 마친다.