TF-IDF는 Term Frequency–Inverse Document Frequency의 약어로, 정보 검색(information retrieval)과 자연어 처리(NLP)에서 단어의 중요도를 수치화하기 위한 대표적 통계 기법이다[1][2][3][4].
TF-IDF는 특정 단어가 하나의 문서 내에서 얼마나 자주 등장하는가(TF)와, 전체 문서 집합에서 얼마나 희귀한가(IDF)를 결합한 값이다.
즉, 자주 나오지만 흔하지 않은 단어일수록 그 문서에서의 중요도가 높다는 원리에 기반한다[3][4].
공식적으로는 다음과 같이 표현된다.
여기서
예를 들어 “광어회”가 A 문서에 자주 등장하지만 다른 문서에는 거의 등장하지 않는다면,
그 단어의 TF는 높고 IDF도 높아 A 문서의 핵심어로 간주된다[1][2].
요약하면, TF-IDF는 “흔하지 않게, 하지만 자주 쓰인 단어가 중요하다”는 통계적 직관을 수식으로 표현한 모델이다.
출처
[1] TF-IDF란? - 네이버 블로그 https://blog.naver.com/goreng2/221780750830
[2] tf-idf - 위키백과, 우리 모두의 백과사전 https://ko.wikipedia.org/wiki/Tf-idf
[3][NLP] TF-IDF 설명 | 특정 단어가 문서 내에서 얼마나 중요한지 https://mvje.tistory.com/174
[4] 04-04 TF-IDF(Term Frequency-Inverse Document Frequency) https://wikidocs.net/31698
[5] 자연어 처리(NLP) - TF-IDF, TfidfVectorizer(), SGDClassifier() https://blog.naver.com/handuelly/221814212246
[6] TF-IDF (Term Frequency - 벌꿀오소리의 공부 일지 - 티스토리 https://yeong-jin-data-blog.tistory.com/entry/TF-IDF-Term-Frequency-Inverse-Document-Frequency
[7] TF-IDF를 통한 인물의 상세 설명에서 키워드 추출 https://programmingjournal0813.tistory.com/9
[8] 정보검색 #2 TF-IDF 자세히 알아보기 - JiwonDev https://jiwondev.tistory.com/37
[9] TF-IDF란? SEO에 활용하는 방법 https://238lab.kr/blog-seo-tfidf
[10] TF-IDF(Term Frequency - Inverse Document Frequency) - Note https://white-joy.tistory.com/7