LDA 토픽 모델링(판단 기준)

Minjung·2025년 10월 14일
post-thumbnail

개념

텍스트 기반의 문서 데이터에서 핵심 주제를 찾는 데이터 분석 방법론이다.

예를 들어, 내가 뉴스 기사 3편을 가지고 있다고 해보자.

  1. “손흥민 선수, 프리미어 리그에서 두 골 기록”
  2. “토트넘, 챔피언스 리그 진출 확정”
  3. “삼성, 반도체 투자 10조원 발표”

LDA는 문서 → 주제(Topic)→”단어” 구조로 문서를 설명한다.

문서 1,2는 축구 관련 단어가 많으므로 → 스포츠 토픽

문서 3은 반도체, 투자 단어가 많으므로 → 산업/경제 토픽

토픽 1 (스포츠): {선수, 경기, 골, 리그, 토트넘}

토픽 2 (경제): {반도체, 투자, 삼성, 산업}

문서 1: 토픽1 90%, 토픽2 10%

문서 2: 토픽1 95%, 토픽2 5%

문서 3: 토픽1 5%, 토픽2 95%

LDA는 이런 숨겨진 주제를 찾아내고, 각 문서가 여러 주제를 얼마나 섞어서 가지고 있는지 확률로 표현한다.

LDA 수행 과정

  1. 가정

    사용자는 알고리즘에게 토픽의 개수 K개를 알려주어야 한다.

    K개의 주제를 찾으라고 지시받은 LDA는 문서에 K개의 토픽이 있다고 가정한다.

  2. 알고리즘 수행

    입력 : 문서 집합(텍스트 데이터)

    전처리 : 토큰화, 불용어 제거, 단어 빈도 행렬(DTM,BoW) 생성

    초기화 : 각 단어를 랜덤하게 토픽 중 하나에 배정

  3. 반복

    단어 하나를 빼서 “이 단어가 어떤 토픽일 확률”을 계산 (문서 내 토픽 분포 x 토픽 내 단어 분포)

    그 확률에 따라 토픽을 재할당

    이 과정을 모든 문서,단어에 대해 반복 → 안정적인 분포에 수렴!

판단 기준

사실 LDA 토픽 모델링에서는 수치의 절대적인 값보다는 상대적인 비교, 패턴의 일관성, 해석 가능성이 가장 중요하다.

그럼에도 실제로 연구나 데이터 분석에서 평균적으로 사용하는 판단 기준은 이렇다.

  1. LDA에서 토픽 - 단어 확률(β)은 보통 0.02~0.20 사이에 존재한다.
    • β ≥ 0.05 (5%) → 꽤 강한 신호, 토픽 설명 핵심 단어
    • β ≥ 0.03 (3%) → 토픽 특징을 구성하는 중요한 단어
    • β ≥ 0.01 (1%) → 주변 단어(도움은 되지만 핵심은 아님)
  2. 문서가 특정 토픽에 속할 확률(θ)
    • θ ≥ 0.30 → 문서가 해당 토픽을 "상당히" 반영
    • θ ≥ 0.20 → 문서에 부분적으로 주제 포함
    • θ < 0.10 → 약한 관련(실제로는 거의 영향 없음)
  3. 토픽이 의미있는지를 판단하는 기준
    • love, heart, miss, beautiful, feel 처럼 자연스럽게 묶인다면 의미있다고 판단할 수 있다.
    • 다른 토픽과 구분이 된다면 의미있다고 판단할 수 있다. (토픽들이 단어를 많이 공유하면 무의미하다.)
    • 여러 문서에서 반복적으로 나타나지 않고 특정 문서에서만 등장하는 단어 조합이라면 신뢰도가 상승한다.
  4. 지표
    • Coherence Score(일관성 점수)
      • 0.45 ~ 0.55 → not bad
      • 0.55 ~ 0.65 → good
      • 0.65 → very good

profile
취준하는 데이터 분석가의 정리노트📘

0개의 댓글