리뷰에서의 의견은 Aspect term과 opinion term으로 나눌 수 있다. 한국어 리뷰를 가지고 aspect와 opinion extract를 수행할 수 있는 데이터셋을 구축해보려고 한다.
리뷰 데이터에서 aspect를 추출하는 task에 어떤 한국어 토크나이저가 적합할지 비교해보았다.
Khaiii를 활용해 리뷰 Aspect Extraction 데이터셋을 직접 구축하기 위한 계획
한국어 리뷰로 Aspect Extraction을 위한 데이터셋을 구축하는 과정 - 전처리
Khaiii로 토크나이즈하고 TF-IDF와 유사한 형태의 함수를 커스터마이징 하여 리뷰 속 주요 단어(aspect seed)를 뽑아내는 작업을 해보았다.
aspect seed에서 aspect words를 뽑아내기 위해 W2V skipgram을 사용한다. 여기서는 W2V 방식에 대한 설명
W2V의 Skipgram 방식으로 상품군별 쇼핑리뷰 corpus를 학습시키고, aspect seed와 유사한 단어들을 추출해내는 과정