BI 10장 토픽모델링

홍준표·2025년 12월 6일

토픽모델링

  • 텍스트를 분석해 문서 속의 주제들을 찾아내기 위한 통계추론에 기바한한 분석 기법
  • 개별 문서는 여러 주제들로 구성되어있다고 가정. 즉 각 문서는 토피들의 확률적 혼합체로 간주함
    ex)
    문서1: 온난화(0.2), 탄소배출(0.5), 전기차(0.3)
    문서2: 온난화(0.3), 빙하기(0.4), 생태계(0.3)
  • 토픽분석의 시초는 LSA(Latent Semantic Analysis)이며, 가장 많이 사용되는 모델은 LDA(Latent Dirichlet Allocation)임

LDA(잠재디리클레할당)모델

  • 디리클레(Dirichlet): 확률분포의 명칭
  • 전체 문서들의 주제(토픽) 추출, 각 주제들를 구성하는 단어들, 각 문서별 주제들의 비율을 파악
  • 토픽들이 도출되지만, 각 토픽의 이름은 여구자가 직접 붙여줘야함


토픽모델링의 활용

  • 대량의 문서들을 직접 읽어보지 않고도 주제를 파악
  • 문서들을 주제별로 분류할 수 있음
  • 토픽을 구성하는 주요 단어를 통한 키워드 파악이 가능함
  • 그외, 시기별 토픽 모델링을 수행하여 issue tracking을 수행하는 등 활용성이 높음. 예를 들어 SNS글들을 년도별로 토픽모델링하면, 매해 주요 관심 이슈의 변화를 파악할 수 있음.

실습

워드클라우드&토픽모델링 실습

데이터 수집: 네이버 뉴스에서 수집한 외국인 노동자 관련기사 1,025건
데이터 전처리 파일: 외국인 노동자(명사).txt[전처리완료된 데이터]

profile
공학자

0개의 댓글