click()
함수 오류: 원하는 element나 xpath를 찾고 나서 click 함수를 통해 마우스 왼클릭을 수행해야하는데 자꾸 실패 → execute_script("arguments[0].click();", my_element)
함수를 통해 실행 (자바스크립트 코드를 직접 실행시켜 오류 해결)데이터 EDA
길이 분포
고객 리뷰
사장 답글
무성의한 고객 리뷰와 사장 답글을 거르기위해 길이 분포의 통계를 바탕으로 고객 리뷰와 사장 답글이 적절한 길이인 경우만 사용
유사도 분석
단순히 사장님 답글을 학습하는 것이 아닌 고객 리뷰에 맞춰 생성하는 것을 목표로 했다. 따라서, 고객 리뷰와 사장님 답글간의 유사도가 필요했다.
Glove
카운트 기반의 LSA와 예측 기반의 Word2Vec의 단점을 보완한 glove 사용
임베딩된 단어벡터 간 유사도 측정을 수월하게 수행하고 동시에 말뭉치 전체의 통계 정보를 반영하기에 적절하다고 판단
한국어 위키백과, KorQuAD, 네이버 영화 말뭉치 등으로 학습된 glove를 사용
glove의 경우 명사를 추출하고 유사도를 측정하기 때문에 0이 대략 3만개 발생
Sentence-BERT
SBERT의 finetuning 방식인 STS(Semantic Textual Similarity) 문제는 두 문장으로부터 의미적 유사성을 구한다. 해당 방식이 우리가 생각하는 유사도와 비슷하다고 생각하여 사용
multi-lingual SBERT 중 가장 성능이 좋은 paraphrase-multilingual-MiniLM-L12-v2 를 사용
최종 유사도 분포를 이용하여 glove는 0을 제외한 분포에서 0.4 이상, Sentence-BERT는 전체 분포에서 0.4 이상의 값을 보이는 데이터만 남도록 전처리
TF-IDF를 적용하지 못한 점
서버마다 inference 결과 상이
데이터 EDA 활용
날씨
는 사장답글 18만개 데이터 중에 1만개 문장에서 등장했다. 이는 확률로 따지면 5%지만 inference를 해보면 날씨가 5%보다 많이 등장했다. 이러한 편향성을 최대한 줄이고 싶었다. 하지만, 막상 빈도수를 구해도 어떻게 편향성을 구할지 감이 잡히지 않았고 프로젝트의 기간이 넉넉하지 않아 빠르게 진행해야 해서 길이 분포만 반영하였다. 데이터 EDA를 통해 좀더 다양한 실험을 못한 점이 아쉬웠다.