CJ 올리브네트웍스가 주관하는 AI 심화 해커톤에 참가했던 기록을 남긴다.우리 팀은 올리브영 리뷰 데이터를 활용해서 감성분석을 하는 자연어처리 인공지능 모델을 만들었다.
📌 목차
- 프로젝트 주제
- 기획의도
- 선행자료 조사
- 데이터 수집 및 특성
- 모델
- 확장성
1) 리뷰 데이터의 중요성 증대
📌 올리브영 리뷰 데이터 크롤링: 뷰티 카테고리 >> 스킨케어 상품군 전체
- 올리브영 리뷰 데이터는 아이디, 작성 날짜, 별점, 피부타입, 리뷰 텍스트 등 정형 데이터와 비정형 데이터로 구성
- 재구매 여부나 한달이상사용 여부는 null 값이 많아 제외
- 한달이라는 시간적 제약을 고려하여 올리브영의 모든 리뷰데이터를 다루는 대신 스킨케어 카테고리로 데이터 수집 범위 축소
📌 AI HUB 속성기반 감정분석 라벨링 데이터
- 딥러닝 학습용 라벨링 데이터로 AI 허브에서 제공하는 오픈 데이터셋 활용
- 화장품 카테고리에서 스킨케어 상품군에 대한 리뷰, 속성, 감성이 라벨링된 데이터
[
{
"Index": "215137",
"RawText": "유통기한도 넉넉하고 구성도 많아서 선물 하기 좋네요. 만족합니다.",
"Source": "쇼핑몰",
"Domain": "화장품",
"MainCategory": "스킨케어",
"ProductName": "OO 프리미엄 GE라인 에스테틱 패키지 13종",
"ReviewScore": "100",
"Syllable": "39",
"Word": "8",
"RDate": "20210920",
"GeneralPolarity": "1",
"Aspects": [
{
"Aspect": "유통기한",
"SentimentText": "유통기한도 넉넉하고",
"SentimentWord": "2",
"SentimentPolarity": "1"
},
{
"Aspect": "제품구성",
"SentimentText": "구성도 많아서 선물 하기 좋네요.",
"SentimentWord": "5",
"SentimentPolarity": "1"
}
]
ABSA(Aspect Based Sentimental Analysis)
속성 기반 감성분석 모델
- 기존의 감성 분석은 리뷰 텍스트 전체에 대한 감성을 분석하는 것
- 속성 기반 감성 분석은 텍스트 내 등장하는 여러 속성들에 대한 감성을 직접적으로 학습하고 예측하는 기법
- 따라서 소비자가 제품의 각 속성에 대해 다양하게 표현한 감성에 대한 분석 가능
ABSA using BERT
사전학습된 BERT 모델을 활용하여 ABSA 모델링 진행
[출처]
크리마 https://www.cre.ma/review
올리브영 https://www.oliveyoung.co.kr