형태소 분석(POS-tagging)이란 원시 말뭉치(Corpus)를 형태소 단위로 쪼개고 각 형태소에 품사 정보를 부착하는 작업을 가리킨다.현재 오픈 소스로 나와 있는 한국어 형태소 분석기(Korean POS Tagger)는 다음과 같다. 가장 많이 사용되는 KoNLP
한국어 품사 태그 분석은 세종 프로젝트 산출물인 세종 품사 태그와 심광섭 품사 태그가 주로 사용된다. 한국어 기본적으로 5언 9품사(9POS)를 사용한다. 하지만 세종프로젝트와 심광섭 프로젝트는 5언(체언, 용언, 수식언, 독립언, 관계언) + 기타(어미, 접두사, 접
개발: Shin285 (github에 공개), shinware개발언어: java알고리즘: HMM여러 어절을 하나의 품사로 분석 가능함으로써 형태소 분석기의 적용 분야에 따라 공백이 포함된 고유명사(영화 제목, 음식점명, 노래 제목, 전문 용어 등)를 더 정확하게 분석