[ 사용된 기술 및 패키지 ]
- python
- numpy/pandas
- selenium
- Beautifulsoup
- gensim
- konlpy
[ 담당 업무 ]
- EDA
- 데이터 수집
- N그램 방식을 사용한 데이터 전처리
- 토픽 모델링
- 결과 해석
온라인 리뷰 플랫폼에서는 이미 경험을 가진 다른 사용자의 후기를 제공함으로써 다양한 분야에서 사용자의 의사결정을 돕고 있다. 본 연구에서는 온라인 강의리뷰를 이용하여 대학생들의 강의 만족 요인과 불만족 요인에 대해 분석한다. 이를 위해 M대학교 학생들이 이용하는 온라인 커뮤니티 사이트인 에브리타임에서 44,845건의 강의리뷰를 수집하였다. 그리고 만족도 평가 점수를 기준으로 긍정적인 리뷰와 부정적인 리뷰를 분리하여 LDA 기반의 토픽모델링을 각각 수행하였다, 분석 결과 강의 만족 요인은 강의 부담 정도, 교수와 학생 간 소통 등으로 나타났고, 불만족 요인은 성적 평가요소 불만, 강의 전달력 부족 등으로 확인되었다. 제시한 결과는 교수자들의 강의 개선과 온라인 리뷰 플랫폼의 운영 개선을 위하여 활용될 수 있을 것으로 기대한다.
나는 어떤 결정을 할 때 온라인 리뷰를 많이 보는 사람이고, 특히 매 학기마다 시간표를 짤 때 강의리뷰를 꼼꼼하게 확인하는 편이다. 항상 리뷰를 작성하거나 소비하는 입장에서 분석하는 입장으로 바뀐 점이 이번 프로젝트를 더욱 재밌게 만들었다고 생각한다. 주제에 관심이 있으니 조금 더 깊은 고민을 하게 되고 내 경험에 비춰보며 더 많이 생각하게 된 것 같다. 프로젝트를 진행함에 있어 주제 선정의 중요성을 한 번 더 느끼게 되었다.
그런데 사실 매번 내 마음에 쏙 드는 주제로 프로젝트를 진행할 수 없는 것이 현실이다. 지금까지도 그랬고 앞으로도 그럴 것 같다. 그렇지만 이렇게 나에게 딱 맞는 주제로 진행한 프로젝트 경험이 앞으로 어떤 주제를 만나던 어려움을 헤쳐나가는 데에 도움이 될 것 같다. 좋아하는 주제로 프로젝트 할 때 어떻게 생각하고 어떤 자세로 임했는지 기억하니 말이다. 앞으로는 어떤 주제로 데이터 분석을 하더라도 더 많은 인사이트를 찾을 수 있고, 더 노력을 기울일 수 있을 것 같다.
쿠팡 이츠 리뷰 분석에서도 자연어 처리를 해보았지만, 이 때에는 단순히 단어의 개수를 카운팅하고, 별점 개수로 시계열 분석을 해보는 등 간단한 분석만 진행했다. 이번 프로젝트에서는 한 발 더 나아가 LDA 기반의 토픽 모델링도 진행하고 바이그램, 트라이그램 방법도 사용해보니 전보다 더 다채로운 분석이 가능했던 것 같다.
조금 더 많은 방법이 도입됨에 따라 생각할 것이 많아졌고 그에 따라 분석에 어려움을 느꼈다. 단순히 토큰화하는 것이 아니라 바이그램이나 트라이그램으로 의미있는 여러 조합의 단어를 찾아내고, 토픽 결과를 해석함에 있어 팀원들과 많은 이야기를 나누었다. 다양한 분석 기법과 팀원들과의 깊은 소통이 좋은 결과를 만들 수 있지 않았나 싶다.