전처리, 그 중 tokenization에 대해 공부해보았다.
아직 첫 장만 보았는데, 전처리가 지옥 같을 것이란 생각이 든다.
언어 별로, 도메인 별로, 오타가 있나 없나, 등등..
이미지만 다뤄봐서 몰랐던 문제를 생각해볼 수 있었다.
특히 한글의 형태소 단위 토큰화의 경우 재밌게 봤는데, 형태소 문제로 수능 때 애를 썼던 기억이 났기 때문이다. 국어를 공부하는 기분이었다 ㅎㅎ
가령 이미지는 결측치가 있다? -> exception을 일으켜 무시하던가 직접 확인해보면 될 건데,
텍스트는 오타가 나도 분명 잘 작동할 것이고, 의도하지 않은 무언가의 의미를 파악하려 모델은 애쓸테니까.
신중하고 잘 작동할 토큰화 방식을 고안하고, 사용해야 할 연구자, 엔지니어의 고민을 찍먹해보았다.텍스트
기대된다! 재밌을 것 같다.