TF-IDF

김동준·2025년 10월 24일

TF-IDF는 Term Frequency–Inverse Document Frequency의 약어로, 정보 검색(information retrieval)자연어 처리(NLP)에서 단어의 중요도를 수치화하기 위한 대표적 통계 기법이다[1][2][3][4].

개념

TF-IDF는 특정 단어가 하나의 문서 내에서 얼마나 자주 등장하는가(TF)와, 전체 문서 집합에서 얼마나 희귀한가(IDF)를 결합한 값이다.
즉, 자주 나오지만 흔하지 않은 단어일수록 그 문서에서의 중요도가 높다는 원리에 기반한다[3][4].

공식적으로는 다음과 같이 표현된다.

TF-IDF(t,d)=TF(t,d)×IDF(t)\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \text{IDF}(t)

여기서

  • TF(t,d)\text{TF}(t, d) = 특정 단어 t가 문서 d 내에 등장한 횟수 ÷ 문서 d의 전체 단어 수
  • IDF(t)\text{IDF}(t) = log(Ndft)\log(\frac{N}{df_t}),
    N은 전체 문서 개수, dftdf_t는 단어 t가 등장한 문서 수

직관적 해석

  • TF(단어 빈도, Term Frequency): 한 문서 내에서 단어가 많이 등장할수록 중요도가 높다고 본다.
  • IDF(역문서 빈도, Inverse Document Frequency): 여러 문서에 널리 퍼져 있을수록 정보 가치가 낮다고 평가한다.
  • 두 값을 곱함으로써, 흔한 단어(the, and 등)는 자동으로 중요도가 낮아지고, 특정 문서에서만 두드러지는 단어가 높게 평가된다[1][4][6].

활용 분야

  • 검색 엔진에서 문서의 관련도 점수(ranking score) 계산
  • 문서 간 유사도 측정클러스터링
  • 핵심어 추출, 텍스트 요약, 토픽 모델링 등 다양한 NLP 응용에 활용된다[4][5][6].

예시

예를 들어 “광어회”가 A 문서에 자주 등장하지만 다른 문서에는 거의 등장하지 않는다면,
그 단어의 TF는 높고 IDF도 높아 A 문서의 핵심어로 간주된다[1][2].

요약하면, TF-IDF는 “흔하지 않게, 하지만 자주 쓰인 단어가 중요하다”는 통계적 직관을 수식으로 표현한 모델이다.

출처
[1] TF-IDF란? - 네이버 블로그 https://blog.naver.com/goreng2/221780750830
[2] tf-idf - 위키백과, 우리 모두의 백과사전 https://ko.wikipedia.org/wiki/Tf-idf
[3][NLP] TF-IDF 설명 | 특정 단어가 문서 내에서 얼마나 중요한지 https://mvje.tistory.com/174
[4] 04-04 TF-IDF(Term Frequency-Inverse Document Frequency) https://wikidocs.net/31698
[5] 자연어 처리(NLP) - TF-IDF, TfidfVectorizer(), SGDClassifier() https://blog.naver.com/handuelly/221814212246
[6] TF-IDF (Term Frequency - 벌꿀오소리의 공부 일지 - 티스토리 https://yeong-jin-data-blog.tistory.com/entry/TF-IDF-Term-Frequency-Inverse-Document-Frequency
[7] TF-IDF를 통한 인물의 상세 설명에서 키워드 추출 https://programmingjournal0813.tistory.com/9
[8] 정보검색 #2 TF-IDF 자세히 알아보기 - JiwonDev https://jiwondev.tistory.com/37
[9] TF-IDF란? SEO에 활용하는 방법 https://238lab.kr/blog-seo-tfidf
[10] TF-IDF(Term Frequency - Inverse Document Frequency) - Note https://white-joy.tistory.com/7

profile
Story Engineer

0개의 댓글