TF-IDF

Minjung·2025년 10월 14일

데이터 분석(Data Analysis)

목록 보기

9/12

→ 단어의 빈도와 역 문서빈도를 사용하여 단어들마다 중요한 정도에 따라서 가중치를 부여한다.

모든 문서에서 등장하는 흔한 단어들은 중요도(가중치)가 낮으며 특정 문서에만 자주 등장하는 단어는 중요도가 높다.

말뭉치 N = 3

TF-IDF 과정

→ 모든 문서에 흔한 “경기”보다 각 문서에 특이한 단어들이 더 크게 가중됨.

전처리
- 소문자/정규화, 숫자/기호, 불용어 제거 필수 !
- 한국어는 형태소 분석이 중요
하이퍼 파라미터
- sublinear_tf = True : 긴 문서에서 특정 단어의 과도한 TF를 누름
- min_df,max_df : 너무 희귀한 단어 필터링
- ngram_range(1,2) : 조합어(축구+경기 = 축구 경기)까지 포착
정규화
- norm=’l2’ : L2정규화. 보통 검색, 유사도 기반 작업에서 안정적임
성능/메모리
- 결과는 희소행렬이며, 차원수가 크면 “특징 선택” 또는 “차원 축소”와 함께 씀

→ 형태소 분석, n-gram, 적절한 mid_df,max_df만 잘 잡아도 성능이 크게 향상됨

그러나, [의미]가 중요하다면 TF-IDF는 문맥을 이해하지 못하기 때문에 임베딩 방법(SBERT,BM25 등)을 고려할 것 ‼️

취준하는 데이터 분석가의 정리노트📘