기간 : 2023.09.15 – 2023.10.16
수행 역할 :
배운 점 :
① NLP에서 전처리 과정의 이해도를 높이고 KoBERT 모델에 대한 전이학습으로 카테고리, 감성 분류 모델을 개발.
② 최종 대시보드까지 제작하며 시각화 툴 핸들링 능력 향상.
➡️ 커머스 3사 앱에 대한 리뷰를 구글 플레이 스토어와 애플 앱 스토어에서 크롤링.
➡️ 긍정 리뷰에서 빈도수가 높은 TOP 5 키워드는 커머스 플랫폼별로 거의 비슷한 양상(가격, 배송, 정품 신뢰도, 상품 구색)을 보임. 그러나 머스트잇의 경우 UX/UI 편의성(4위)이 높은 순위에 있으며, 발란, 트렌비의 경우 프로모션(각 4위, 3위)이 높은 순위에 있음.
➡️ 가장 많은 데이터를 확보한 트렌비의 리뷰를 통해 커머스 플랫폼의 부정 리뷰가 급증할 때 요인이 어떻게 되는 지 알아보고자 했음. 특정 시기에 앱의 오류가 있거나 고객센터가 불만족스러울 때 부정 리뷰가 특히 증가하는 양상을 보임.
➡️ 명품 관련 여러 온라인 커머스(머스트잇, 트렌비, 캐치패션)에서 자체적으로 시행한 설문조사에 의하면 온라인 명품 구매를 이용할 때 가장 고려하는 요소는 정품 신뢰도임. 따라서 키워드 빈도 분석을 통해 정품 신뢰도 판단할 때 중요한 요소가 무엇인 지 파악함. '검수, 프로세스, 감정' 키워드가 최상위 빈도인 것으로 보아 물품 검수 과정, 정품 감정 절차가 커머스의 정품 신뢰도에 영향을 주는 중요한 요소라고 볼 수 있음.
➡️ 커머스 3사 모두 긍정 리뷰의 비율이 부정 리뷰보다 높은 부분을 차지. 그러나 머스트잇의 경우 IOS 기반의 앱이 부정 비율이 높은 데 이 점이 타사에 비해 전체 부정 리뷰의 비중을 높게 만듦.
➡️ 리뷰에서 감성 클래스별 비율이 긍정 4 : 부정 1 로 클래스 불균형이 심한 편이었음. 또한 전체 확보한 리뷰 데이터가 전처리 후 약 13000개 정도로 모델을 학습 시키기에 다소 적은 양이라고 판단되었음. 따라서 적은 양의 데이터로도 좋은 성능을 낼 수 있도록, Pre-trained BERT 모델인 KoBERT 모델을 활용하여 확보한 데이터셋을 Fine-tunning 하는 전이학습을 진행하기로 결정하였음.
➡️ 실시간으로 VoC의 카테고리를 분류하고 대시보드화, 유저들의 상품/서비스에 대한 평가 현황을 확인