테스트 코드는 쥰내 중요하다!

minsing-jin·2024년 1월 4일
0

SearchQA dataset prerpocessing에서 테스트코드 없이 retrieval ground truth를 만들고, duplicated snippets과 null값을 제거해주는 과정을 했다.
하지만 이 null값이 dataset자체 한 element에 dictionary로 감싸져있는 numpy array에 숨겨져 있고, 때로는 null값이 아닌 ''이거나 ' '같은 빈칸 공백으로만 존재하는 극악 무도한 녀석들이 있었다.

항상 전처리 과정 한번당 null값이 있는지, length는 맞는지를 체크하는 코드를 작성하자. dataset이 커지고, 코드의 규모가 커질수록 점점 눈으로 확인하는 것은 힘들고, 실수가 잦아졌다.

주석과 테스트코드로 극복하자~~
감이 안온다면 내 repository 한번씩 보고 하자.

SearchQA prerpocessing

profile
why not? 정신으로 맨땅에 헤딩하고 있는 코린이

0개의 댓글