데이콘: 2025 자동차 데이터 분석 경진대회 : GPT를 활용한 뉴스클리핑 만들기
프롬프트 엔지니어링 | GPT | 뉴스클리핑 | 분류 | AI Agent

지난주에는 이진분류 경진대회 공략법을 알아냈다. 그렇게 해서 알아낸 공략법으로 지금은...

19등이다. (팀 순위는 14위) 현재 우리가 작성한 프롬프트는 상위랭커와 동일한 성능의 프롬프트이다. 최근까지 마지막 2% 성능을 개선하기 위해 노력했지만, 지금은 글자수 최적화(줄이기) 작업에 들어가 있는 중이다. 글자수 1자가 순위에 크게 작용하기 때문에 팀원들과 소통을 통해 필요없는 요소를 찾고 있다. 아마 최종적으로는 10등 안에 들어갈 거 같다.
데이콘: 토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발
알고리즘 | 채용 | 토스 | 정형 | CTR | 머신러닝 | 분류

그리고 토스 CTR 모델 개발 경진대회도 참가했다. 지금까지 했던 경진대회들 중에서 압도적으로 무식한 대회이다.
Dataset Info.
train.parquet [파일] : 총 10,704,179개 샘플
일단 parquet이라는 파일형식을 처음봤고, 1000만 개의 데이터... 무려 8GB 정도의 데이터이다. 테스트 데이터도 100만 개의 데이터로 괴랄한 용량을 보여준다. 일단 어제 시작했기 때문에 아직까지는 전략을 세우진 못 했지만, 현재 개발 환경에서는 한 번에 전체 데이터를 다루지 못 하기 때문에 어떻게 효율적으로 나눠서 데이터를 처리해야할지 고민을 하고 있는 중이다.
물리적으로 어떻게 나눌지에 대한 고민이 끝나야지 이상치 판단 및 처리를 할 수 있을 거 같다. 역시 TOSS 대회라 그런지 물리적으로 꽤 난이도가 있는 모습. (그에 비해 아쉬운 상금 ...)
구조화

사실 최근에 배운 LangGRAPH에 대한 이해를 완벽하게 마무리한 상태는 아니다. 하지만 필수적으로 해야겠다라는 생각이 들었다. 바이브 코딩을 통해 못 만드는 것은 없다. 하지만 잘 만드는 것은 개발자의 역량이다. 머릿속에 혹은 종이에 내가 개발하려는 프로젝트의 구조화 작업을 하지 못 하면 허술한 집 처럼 무너지게 될 것이다. 따라서 지금은 구조화에 조금 더 개인 시간을 많이 사용하는 중이며, 동시에 백앤드 역량을 발전시키기 위해 다양한 책을 보고 있다.