Boostcamp AI Tech 4기 11주차 회고록(12/04)

유상준·2022년 12월 4일
0

11주차 회고록

dkt대회 3주차 회고록


다음주면 dkt 대회가 마무리 된다. 정말 시간이 짧은 것 같으면서도 돌이켜보니 길었던 시간 같기도 하고.. 앞으로 해볼일은 많은데 시간은 또 부족하다는 생각이 든다.


이번주 정리

SQL 공부

저번주 금요일부터 아침시간에 팀원들과 함께 줌을 켜놓고 30분~1시간 정도 CS공부를 시작했다. (3주간 SQL) 진짜 혼자 했으면 절대 안했을 거 같은데 같이 하니까 하게 된다. 간단한 소감으로는 그래도 학부생 때 데이터베이스 수업을 들어둬서 그런지 간단한 배경지식을 갖고 시작하다보니 막 어렵다 싶은 부분은 없었다. 하지만 그렇다고해서 정확히 알고 있느냐 짚고 넘어가자면 많이 부족한 것 같기도 하다.

각자 공부했던 내용에 대해서 일주일에 한 번 정도 질의응답 비슷하게 얘기를 하는 시간을 갖고 다음으로 넘어가기로 했는데, 이 때 집단지성이 발휘되면서 서로 이해가 가지 않았던 부분이나 몰랐던 부분을 같이 생각하게 되고 나름의 정답을 찾아나가는 경험도 했다. 학부생 때 시험 전 날 다같이 공부방에 모여 회귀분석, 수리통계등을 공부 했던 기억이 났다. 이것이 스터디의 힘인 것 같다.

오프라인 모임

이번 팀에는 전 팀과 다른 점이 있다면 멘토링이 매주 화요일에 있으며, 그 날에는 다 같이 모여 프로젝트에 대해 의견을 공유하는, 즉 오프라인 모임을 위한 온전한 하루가 있다는 점이다. 이 날에는 정말 집중도 최상으로 공부할 수 있는 날이라 꼭 필요한 날이기도 하다. 시간이 특히나 빨리 가기도 한다. (저녁에 먹은 순대국이 참 맛있었다.)

이번주 모임에서는 부스팅 모델, 깃허브 브랜치 중간 정리, 효과적인 validation set을 만드는데에 집중했다. validation set 구축에 대해서 간단히만 얘기해보자면, test data의 결과값을 예측해야 하는 바로 직전 시퀀스의 데이터를 validaion set으로 해보자는 의견이 나와서 시도해보기로 했다. 현실적으로는 말이 안되는 상황이긴 하지만 대회 특성상 리더보드와 성능이 어느정도 align 되는 데이터 셋을 찾기 위한 전략으로써 시도해보는 것도 좋다는 의견이 대부분이었다. (결과론적으로는 잘 안 된 것 같기도 하다.)

catboost…

다른팀에서는 catboost를 활용한 성능 개선이 이루어졌다고는 하나 현재 우리팀에서는 눈에 띄는 효과를 보지는 못했다. 전 대회에서도 그렇고 실제 상황 (real world)에서 대부분의 정형 데이터의 변수들은 범주형의 성질을 띄고 있고 학습 가능한 양질의 데이터가 정말 많지 않은 경우에 아직도 트리기반 부스팅 모델들이 힘을 쓰고 있다고 하고, 특히 그 중에서 좋은 성능과 빠른 시간을 자랑하는 catboost를 이번 기회에 정말 잘 익혀보고 싶었는데, 아직까지는 (성능적인 측면에서) 좋은 결과가 나오고 있는 것 같지는 않다. 하지만 중요한 것은 꺾이지 않는 마음이기 때문에 대회 끝까지 최대한 노력할 것이다!

느낀점

이번주는 금요일에 월드컵 응원 약속이 있었는데, 그 날에 정말 재밌게 놀고 즐기느라 주말 하루를 거의 푹 쉬어버렸다. 팀원들이 열띤 토론을 펼치고 있을 때 나는 일찍 잠에 들어버린 것이 조금 미안하기도 했고, 지금 이렇게 하는게 맞나 자괴감이 들기도 했다. 냉정하게 바라본 나는 지난주 평일에도 100%를 쏟아붓지 못한 것 같기도 하다. 그렇다고 마음편히 놀러가거나 그러지는 않았지만, 정말 열심히 하는 팀원들과 다른 캠퍼분들을 보면 항상 더 열심히 할 수 있고 해야 한다는 생각이 들곤 한다.

profile
데이터 사이언티스트 지망생

0개의 댓글