KeyBERT는 키워드 추출 방법중 하나로 텍스트 임베딩 단계에서 BERT를 사용한다.
* BERT
keyBERT는 다음과 같은 원리를 따른다.
1. BERT를 이용해 문서 레벨에서의 주제 파악
2. N-gram(키워드 및 식)을 위해 단어 임베딩
3. 코사인 유사도 계산을 통해 어떤 N-gram 혹은 단어가 문서와 가장 유사한지 탐구
4. 가장 유사한 단어들을 키워드로 분류
keyBERT와 한글 명사추출을 위해 kiwipiepy설치 후 데이터 불러오기
데이터프레임 특수문자 제거 후 한글과 영어 따로 분리
한글 데이터의 키워드 추출에 앞서 불용어를 정의해주고 필요 라이브러리를 임포트 한다.
한글 명사 추출 및 키워드를 추출해 상위 5개 키워드를 아래와 같이 데이터프레임에 저장
다음과 같이 결과가 잘 나온 것을 볼 수 있다.