💡 이 프로젝트는 경희대학교 캡스톤 디자인1 산학연계로 (주) 미리내 멘토와 경희대 학생과 팀을 이뤄 진행하였습니다.
모든 내용은 멘토 및 팀원과 토론을 통해 도출해낸 결과임을 알립니다.
한국어 띄어쓰기 교정기는 간략하게 3가지 정도로 나눌 수 있다.
1) 형태소 기반
문장을 형태소 단위로 분해하여, 그 결과를 heuristics 한 룰에 맞춰 교정하는 방식이다.
예를 들어 "나는 자전거를 탈 수 있다." 라는 문장이 있을 때, "나"와 "는"은 각각 대명사와 조사니 붙혀야 한다. 와 같은 결과를 도출해내는 방식이다.
2) 확률 기반
특정 글자 후에, 띄어쓰기가 올 확률을 계산하여 임계점보다 확률이 높을 경우 띄어쓰기를 하는 방식이다.
형태소 분석을 할 때, 띄어쓰기가 제대로 되어 있지 않은 문장을 입력할 경우, 종종 잘못된 결과를 보인다.
따라서 형태소 분석을 위해서는 띄어쓰기가 교정된 문장이 필요하고, 형태소 분석기와 형태소 기반 띄어쓰기 교정기가 상호 의존적인 문제가 발생한다.
머신러닝을 이용하여, 형태소 분석기와는 독립적인 한국어 띄어쓰기 교정기를 개발할 것 이다.
이 시리즈는 형태소 분석기의 성능을 높이기 위해, 형태소 분석과는 독립적인 머신러닝을 이용한 한국어 띄어쓰기 교정기 개발 과정을 4개의 글을 통해 담아낼 것이다.
어떠한 문제를 마주쳤는지, 그 문제를 어떻게 해결하였는가를 주된 내용이 될것이다.
주로 개념적인 관점에서 서술할 것이며, 복잡한 논문이나 수학식은 볼일이 없을 것이니 안심하자!