텍스트 '감성 분석'이란?

차보경·2022년 5월 27일
5
post-thumbnail

아래 적는 내용은 DBR의 SR1.감성분석활용사례 아티클을 정리한 내용임을 미리 밝힙니다.

0. Article at a Glance

  • '감성 분석' : 글에 내재해 있는 사람들의 주관적 태도나 감성을 추출해 내는 분석 기법
  • '데이터 수집 - 주관성 탐지 - 주관성의 극성 or 정도를 측정'의 과정을 거쳐 분류함
  • 성공사례 : 에뛰드하우스, 스니커즈(감성에 따른 가격변동)

1. 감성 분석이란?

  • 텍스트에 나타난 주관적 요소인 긍정/부정 감정을 판별해 수치/도식/등급 등으로 정량화 하는 작업.
  • 단순 긍정/부정을 추출하는 것이 아닌 대상이 되는 개체나 속성을 추출하거나, 감성을 표현하는 이들의 감정, 감성, 태도, 입장 등을 분석함
  • 대중이 만들어낸 텍스트에 사용된 감성 표현 언어들을 '추출-범주화 및 분류-예측'의 단계를 거쳐 정량화함
  • 일반적으로 극성에 따라 '이분법적(긍정/부정) + 중립(선택적)' 또는 '정도를 부여해 0 ~ 10의 수치'로 나타냄
  • 중요 요소 : 감성 표현(senrimental Expression), 대상(target), 개체(Entity), 개체 속성(Aspect), 의견보유자(opinion holder)의 속성, 시간에따른 추이 등

2. 어떻게 분석하나?

  • 1단계 데이터 수집 : SNS 같은 웹사이트 매체에서 정보를 수집
  • 2단계 주관성 탐지 : 수집된 정보에서 작성자의 주관이 드러난 부분만 걸러냄
  • 3단계 주관성 극성 or 정도 분류

2-1. 감성 분석 방법 : 기계학습 기반

  • 주어진 문자 데이터의 패턴을 학습해 감성 분류 예측 모델을 구축함
  • 구축한 모델에 학습 데이터와 유사한 특성을 갖는 분석 대상 데이터를 넣어 분석 수행
  • 모델의 학습을 위해 문서 또는 문장에 '긍정/부정'의 라벨로 분류된 데이터가 충분히 있어야함
    (없다면 모델 구축 불가 -> 감성사전 기반 분석으로 적용해야함)

2-2. 감성 분석 방법 : 감성사전 기반

  • 수집된 문자 데이터를 전처리해 정리한 후 미리 구축된 감성 사전과 매칭하여 극성감성단어 빈도를 정량화 하여 감성 분석
  • 감성사전은 감성단어에 긍정/부정과 그 극성 범주 값과 특성을 나타내는 감성 점수로 구성됨
  • 감성 사전의 품질이 분석의 성과에 직결
    (감성단어의 유무/단어의 감성 점부 부여/분석 대상에 따른 극성 변화 등이 적절히 되어있어야함)

2-3. 감성 분석 방법 : 속성 기반

  • 전반적인 긍/부정이 아닌 속성 단위의 감성분석으로 분석 대상을 더욱 정교하게 분석함
  • 다수의 문서에서 나타나는 속성별 감정/평가를 해당 속성별로 취합해 제공하여 정교한 분석결과 제시가 가능함
  • 하지만 속성단위로 수행하기 위해선 의견의 대상의 속성 구성을 파악하고 속성에 따른 감성 표현을 찾아 어휘의 긍/부정을 분류해야하기때문에 더욱 어려움

3. 감성분석과 딥러닝

  • 기계학습기반 중 하나인 지도학습(Supervised Learning)기법

    • 결정트리 분류기(Neural Network)
    • 나이브 베이즈 분류기(Naive Bayes Classifier)
    • 서포트 벡터 분류기(Support Vector Machine)
    • 최대 엔트로피 모델(Maximum Entropy) 등이 있음
  • 텍스트는 특성상 데이터의 구조가 희소하고 차원의 수가 크기에 텍스트 처리의 효율성과 분석 성과를 높이기 위한 특성의 추출 및 선택 등의 추출 과정이 매우 중요함

  • 최근엔 그런 과정 없이 단어의 특성을 저차원상의 실수 벡터 값으로 나타내는 워드 임베딩(Word Embedding) 기법이 등장하며 NLP 분야의 주목을 받고 있음

3-1. 워드 임베딩(Word Embedding)

  • 단어들의 의미가 유사하면 벡터 공간상에 가깝게 배치하여 단어들 간의 어휘적 관계를 벡터로 표현하는 표현 방법(구글의 Word2vec 등)
  • 워드 임베딩 + 딥러닝 기법이 우수한 결과를 내고 있음
  • 특히 딥 뉴럴 네트워크(Deep Neural Networks)를 기반으로 분석할 경우 특성들의 차원이 높아졌을 때 성능이 저하되는 것이 보완가능하고, 변수 추출 과정 없이 텍스트에서 자동으로 특성을 추출하기때문에 감성 분석과 관련 분야에서 활발히 연구되고 있음
  • 대표적 딥러닝 모델 : CNN(Convolutional Neural Network), LSTM(Long Short-term Memory Network) 등

4. 실제 마케팅 적용 사례(에뛰드하우스)

  • 화장품 관련 상품의 구매후기 데이터 수집하여 감성 분석 기법 적용 -> 마케팅 대시보드 제공 목표
  • 1단계 데이터 수집
    • 뷰티 관련 웹사이트 게시판 선별, 상품평 데이터 수집
  • 2단계 데이터의 전처리
    • 자연어 데이터 -> 컴퓨터 인식할 수 있도록 단어 식별 후 적합한 의미 정보로 변환
    • 동의어들을 하나의 타겟형으로 통일 시켜 분석 정확도를 제고하는 역할도 있음
  • 3단계 형태소 사전의 구축
    • 범용 형태소 사전은 전문용어가 나오면 인식하지 못해, 해당 산업에 특화된 형태소 사전이 필요함.
    • 수집된 단어에 대한 분석을 통해 단어들을 선별 추가하여 전문데이터를 소실 없이 분석할 수 있는 인프라 구축
  • 4단계 속성어 사전 구축
    • 속성 단위의 감성 분석 접근은 마케팅 인사이트 도출을 위해 필수적임
    • 화자가 어느 속성에 대해 어떻게 서술하는지 파악이 중요함.
    • '속성어 선별 - 비슷한 속성어들의 통칭인 속성 개념 도출 - 다시 속성어에 매칭' 하는 과정을 통해 속성어 사전 구축
  • 5단계 감성어 사전 구축
    • 감성어 사전은 '감성어 - 해당 감성의 극성 및 강도'로 구성됨
    • 다수 문서의 형태소를 분석하여 감성어 후보 도출
    • 속성 기반 감성 분석시 속성별로 감성어의 감성이 달라짐에 유의하고, 이를 '특이 감성어'로 명명하여 별도 관리함
  • 6단계 감성 분석 모형의 구축 및 결과 도출
    • 감성어와 빈도수를 고려하는 사전 기반 방법 & 속성어와 감성어의 문장 패턴을 고려하는 규칙기반 방법을 병용한 형대로 구축
  • 문장 단위의 상품평을 형태소로 분석하여 품사 패턴을 도출하고 품사패턴과 감성어 사전 속성어 정보를 활용해 물장을 논리적 속성 문장으로 분리
  • 분리된 형용사 동사의 감성 점수와 부사의 가중치등을 미리 구축해놓은 사전에서 점수를 추출함
  • 감성 점수를 감성어 가중치 및 점수를 곱해 합산하는 방식으로 산출함
  • 상품별 감성 점수는 속성별 점수의 평균 or 설정된 속성별 가중치에 의거한 가중 평균으로 도출 가능
  • 언급된 속성 개념의 빈도수를 가중치로 활용하기도함 (자주 말했다는 것은 그만큼 중요한 속성이라는 것이니까)
  • 속성별 상품지도 분석 등을 통해 마케팅 인사이트를 도출 할 수 있음

5. 맺는말: 새로운 마케팅 도구, 감성 분석

  • 고객 데이터 및 거래 데이터 중심의 정형 데이터 중심 -> 문자/이미지 등의 비정형 데이터 중심으로 가능성 확대

5-1. 텍스트 기반 감성 분석을 활용한 마케팅 조사 도구 개발의 중요 포인트

  • 적용 분야별 특성을 살린 사전을 잘 구축해야함
    • '형태소 사전, 감성어 사전, 속성어 사전'같은 인프라 사전을 잘 구축하는 것이 매우 중요함
    • 산업분야 별 전문용어를 사전에 적극 포함하여 해당 분야의 특성을 충분히 반영해야함
    • 지속적으로 업데이트 하는 것도 중요(구축된 사전의 고도화 및 유지보수)
  • 데이터 수집 전략을 세울 필요가 있음
    • 모형을 통한 상시적인 분석과 활용을 위해선 고객이 생산하는 막대한 데이터를 체계적이면서 안정적으로 수집할 수 있어야함
    • 수집 사이트/수집주기/수집방법 등 다양한 수집전략을 세워야 함
  • 다른 데이터와 연계해 다양한 분석을 수행해야함
    • SNS로 수집한 문자는 속성값에대한 정의가 없는 비정형 데이터 -> 통계 등 양적 분석 방법 직접 적용하기 어려움
    • 텍스트 전처리를 통해 문서, 단어, 빈도 등을 중심으로 정형화 가능 -> 기존 양적 분석 방법 도입 가능
    • 감성 분석 뿐만 아니라 다양한 테마를 설정하여 고객/거래 데이터 등 다양하게 연계하여 깊게 분석할 수록 인사이트가 넓어짐
profile
차보의 Data Engineer 도전기♥ (근데 기록을 곁들인)

0개의 댓글