비지도 학습으로 키워드를 뽑아보니... TF-IDF, 정말 괜찮을까?

wonjun_choi·2025년 3월 16일

TF-IDF 졸업작품 졸작

졸업작품

목록 보기

4/6

들어가며

북마크한 페이지에서 의미 있는 키워드를 자동으로 추출해야 한다.

서비스 초기에는 데이터가 부족하기 때문에, 이러한 환경에서도 원활하게 키워드를 추출할 수 있어야 한다.
또한, 키워드 추출 속도가 너무 느리지 않도록 최적화해야 한다.

향후에는 사용자가 선택한 키워드의 기록을 학습하여, 점점 더 사용자 맞춤형 키워드를 제공하는 시스템으로 발전시키고자 한다.

비지도 학습을 활용한 키워드 추출 알고리즘

데이터가 없는 환경에서는 비지도 학습 기반의 키워드 추출 방법이 효과적이다.

입력 데이터와 정답 데이터가 충분하면 지도 학습을 사용할 수 있지만,
프로젝트 초기에는 이러한 데이터가 부족하기 때문에 비지도 학습을 활용하는 것이 적합하다.

비지도 학습 기반의 알고리즘을 적용하여, 사용자의 개입 없이 자연스럽게 중요한 단어를 선별하는 방식을 선택했다.

개발 초기 - TF-IDF 기반 키워드 추출

TF-IDF란?

처음 키워드 추출 알고리즘으로 선택한 것은 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘이다.

이 알고리즘은 단어 빈도(TF) × 역문서 빈도(IDF)를 계산하여,
문서에서 상대적으로 중요한 단어를 찾는 비지도 학습 기법이다.

단어 빈도(TF): 특정 단어가 문서에서 얼마나 자주 등장하는지를 나타낸다.
- 단어가 많이 등장할수록 중요한 단어일 가능성이 높다고 가정한다.
역문서 빈도(IDF): 특정 단어가 여러 문서에서 얼마나 희귀한지를 나타낸다.
- 여러 문서에서 공통적으로 많이 등장하는 단어는 중요하지 않다고 가정한다.
- 이를 통해, 의미 없는 불용어(예: "그리고", "하지만") 등을 자동으로 제거할 수 있다.

위 두 값을 곱하여 문서 내 단어들의 중요도를 평가한다.

TF-IDF를 선택한 이유

TF-IDF를 활용한 키워드 추출 방식은 졸업 작품의 요구사항과도 잘 맞았다.
졸업 작품에서는 프로젝트만의 독창적인 알고리즘을 만들어야 하는 요구사항이 있었다.

이를 위해,
1. TF-IDF를 활용하여 문서에서 주요 키워드를 추출한 후,
2. 사용자가 북마크 생성 시 입력한 키워드의 가중치를 높여,
3. 사용자의 기록이 쌓일수록 맞춤형 키워드를 추천하는 방식을 설계했다.

이를 통해, 단순한 TF-IDF를 넘어 사용자의 행동 데이터를 반영한 개선된 키워드 추출 방식을 구현할 수 있을 것으로 기대했다.

개발 과정 - TF-IDF 적용 시 발생한 문제 해결

1. 문단 단위로 텍스트 분할

TF-IDF를 효과적으로 적용하려면 텍스트를 문단 단위로 분할하는 과정이 필수적이었다.

문서가 하나만 존재하면 → 모든 단어의 IDF 값이 동일하게 작아짐
결과적으로, TF 값(출현 빈도)만 반영되는 문제 발생

이를 해결하기 위해, HTML에서 문단 단위로 구분하는 과정을 추가했다.
하지만, 블로그마다 문단을 구분하는 방식이 다르기 때문에 태그 기반 분할 방식이 불완전했다.

해결 방법: `RecursiveCharacterTextSplitter` 활용

HTML 태그를 기반으로 나누는 대신,
RecursiveCharacterTextSplitter를 사용하여 텍스트를 유연하게 분할하는 방식을 선택했다.

이 방식은 다음과 같은 단계를 거친다.

문단 단위(\n\n 기준)로 우선 분할
줄바꿈 단위(\n)로 추가 분할
구두점(.) 기준으로 다시 나누기
공백 기준으로 세분화
최종적으로 지정한 chunk_size 이하가 될 때까지 재귀적으로 분할

이를 통해, 문서 내 적절한 크기의 의미 단위를 유지하면서 문장을 나눌 수 있었다.

2. 한국어 & 영어 혼합 문서 처리 문제 해결

TF-IDF를 적용한 후, 한국어와 영어가 혼합된 문서에서 문제 발생

문제 1: 한국어에서는 명사와 조사가 결합된 형태로 추출됨
문제 2: 영어 단어가 완전히 배제되는 경우 발생

해결 방법 1: 불용어 제거

영어의 경우: nltk 라이브러리에서 기본적인 불용어 목록 제공 → 손쉽게 적용 가능
한국어의 경우: 공개된 한국어 불용어 리스트 활용
- 한국어 불용어 리스트 제공 (출처)

해결 방법 2: 형태소 분석기 활용

konlpy의 형태소 분석기를 활용하여 한국어 명사만 추출
영어는 소문자로 변환 후 nltk.word_tokenize()를 사용하여 분할

최종적으로, 한국어 & 영어가 자연스럽게 포함된 키워드를 추출할 수 있도록 개선했다.

개선해야 할 점 및 향후 발전 방향

1. TF-IDF의 한계 보완 필요

TF-IDF는 문서 간 상대적인 중요도를 측정하는 방식이지만, 다음과 같은 한계가 있다.

문맥을 이해하지 못함 → 단순한 출현 빈도로 중요도를 평가하기 때문에 동음이의어나 다의어 처리 불가능
적절한 문단 분할이 이루어지지 않으면 성능 저하 → 블로그마다 다른 구조로 인해 문서 구성이 일정하지 않음

개선 방향

TF-IDF 외의 비지도 학습 기반 알고리즘 테스트
- YAKE (통계 기반 키워드 추출)
- KeyBERT(BERT 임베딩을 활용한 키워드 추출)
향후 강화학습을 활용하여 추천 시스템 고도화
- 사용자가 선택한 키워드를 피드백 데이터로 활용
- Markov Decision Process(MDP) 기반 강화학습 적용
- 점진적으로 더 정확한 추천이 가능하도록 개선

2. 응답 속도 최적화 필요

현재 키워드 추출 속도는 5~10초가 소요됨.

Google 통계에 따르면 3초 이상 지연될 경우, 사용자의 53%가 이탈
1~3초 증가할 때마다 이탈률이 32% 증가

개선 방향

사전 계산된 키워드 캐싱 도입
- 이미 키워드가 추출된 사이트의 경우 결과를 저장하여 빠르게 제공
비동기 처리 및 병렬 연산 도입
- FastAPI의 async 기능 활용하여 동시에 여러 문서 처리 가능
- multiprocessing.Pool() 또는 ThreadPoolExecutor를 활용한 병렬 처리 적용

결론

현재 TF-IDF 기반 키워드 추출을 적용하여 기본적인 기능을 구현했지만,
성능 최적화와 문맥 이해를 고려한 키워드 추출 개선이 필요하다.

향후, 비지도 학습을 활용한 다른 알고리즘을 도입하고,
사용자의 피드백을 반영하는 강화학습 기반 추천 시스템으로 발전시키는 것이 목표다.

wonjun_choi

이전 포스트

LocalStack과 Github Actions 연동

다음 포스트

비지도 학습으로 키워드를 뽑아보니... TF-IDF, 정말 괜찮을까?

졸업작품

들어가며

비지도 학습을 활용한 키워드 추출 알고리즘

개발 초기 - TF-IDF 기반 키워드 추출

TF-IDF란?

TF-IDF를 선택한 이유

개발 과정 - TF-IDF 적용 시 발생한 문제 해결

1. 문단 단위로 텍스트 분할

해결 방법: `RecursiveCharacterTextSplitter` 활용

2. 한국어 & 영어 혼합 문서 처리 문제 해결

해결 방법 1: 불용어 제거

해결 방법 2: 형태소 분석기 활용

개선해야 할 점 및 향후 발전 방향

1. TF-IDF의 한계 보완 필요

개선 방향

2. 응답 속도 최적화 필요

개선 방향

결론

LocalStack과 Github Actions 연동

프로젝트에서 RabbitMQ 도입 및 운영

0개의 댓글

비지도 학습으로 키워드를 뽑아보니... TF-IDF, 정말 괜찮을까?

졸업작품

들어가며

비지도 학습을 활용한 키워드 추출 알고리즘

개발 초기 - TF-IDF 기반 키워드 추출

TF-IDF란?

TF-IDF를 선택한 이유

개발 과정 - TF-IDF 적용 시 발생한 문제 해결

1. 문단 단위로 텍스트 분할

해결 방법: RecursiveCharacterTextSplitter 활용

2. 한국어 & 영어 혼합 문서 처리 문제 해결

해결 방법 1: 불용어 제거

해결 방법 2: 형태소 분석기 활용

개선해야 할 점 및 향후 발전 방향

1. TF-IDF의 한계 보완 필요

개선 방향

2. 응답 속도 최적화 필요

개선 방향

결론

LocalStack과 Github Actions 연동

프로젝트에서 RabbitMQ 도입 및 운영

0개의 댓글

해결 방법: `RecursiveCharacterTextSplitter` 활용