인공지능과 자연어처리, 한국어 전처리, 한국어 토크나이징에 대해서 공부해보았습니다. 실제로 우리가 웹이나 메신저를 통해 사용하는 언어는 '정제 되지 않은 언어' 입니다. 해당 데이터가 적용되는 방향에 따라 정제가 필요할 수도, 필요하지 않을 수도 있습니다. 요즘에 많이 느끼지만, 오히려 더욱 어려운 데이터로 학습한 모델의 성능이 좋을 수도 있습니다. 이 점을 기억하면서 자연어 전처리에 대해서 충분히 생각해보아야 한다고 봅니다.