NLP에서 학습한 내용을 Project에서 실제로 구현하기 위해 실시하였다.
해당 관련 코드는 github에서 확인 가능하다.
pip install transformers
BERT모델을 기반으로 하기 때문에 transformers의 설치가 필요하다.
git clone https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words
git clone https://github.com/doublems/korean-bad-words
git clone https://github.com/organization/Gentleman/
욕설이 포함된 문장을 처리하기 위한 욕설 Data
v1.0의 주요 기능으로
1. CLS Tokenizing과 cosine_similarity를 활용한 2개 문장 사이의 유사도 추출이 있다.
2. 욕설이 포함되어있는지 검사 및 욕설 포함시 문장 변경이 있다.
v2.0의 주요 기능으로
1. tag를 기준으로 Dataset을 다시 만든다
2. 사용자의 입력이 어떤 tag를 가지고 있는지 추측
3. 추측된 tag와 동일한 Dataset의 CLS만 확인하여 답변의 정확도를 높인다.