Review Text Data : 네이버 랭킹 추천순위가 높은 공기청정기를 리뷰(삼성, LG, Dyson, 위닉스)
-> 소비자들은 제조사에 따라 만족도가 다를까?
-> 소비자들이 어떤 단어를 이용해 긍정적/부정적인 감정을 표현했을까?
네이버 쇼핑 자체 상품 평가 알고리즘인 ’네이버 랭킹’을 통해 각 제조사별 히트 상품 1개만 선택하여 리뷰를 크롤링 (광고상품제외)
제조사(삼성,LG,Dyson,위닉스) 평점별로 10페이지씩 추출 (총 1548개 리뷰 추출)
소비자들은 4,5점을 많이 부여했다.
1,2,3 점은 리뷰 수가 적음
- 감정 상태 분류 모델을 선언하고 학습
일반적인 LSTM 모델을 사용
- 성능 분석 결과 Score 가 0.375가 나와 매우 낮은 성능
epoch을 진행해도 개선이 되지 않음
- 하단 그림의 훈련 loss와 평가 loss가 반복할 때마다 역전되는 현상을 확인
Overfitting 발생
제조사(text) 컬럼 원-핫 인코딩 및 다중클래스 분류를 거쳤어도,
정확도를 높이는 것이 실패했음을 의미
- 감정 예측을 실시했지만 긍정/부정을 정확하게 나누지 못함
- 과적합이 발생된 것으로 보이나 정확도 및 loss 부분에서 안정적인 수치를 보여줌
- 감정 예측 실시, 제조사 기준 모델보다 조금 더 정확하게 예측하는 것을 확인
제조사 정보를 이용한 소비자 감성분석은 감성 예측에는 도움이 되지 못했다.
평점을 이용하여 일정 점수가 넘을 경우로 분류하는 것이 감정분석 예측에 더 효과적이었다.
제작한 감성분석 예측 모델을 이용하여 단어를 입력하면 긍정적일지 부정적일지 예측이 가능하다.