엘라스틱서치 토큰확인
GET _analyze
{
"text": "원하는 문장"
}
GET _analyze
{
"tokenizer": "nori_tokenizer",
"text": [
"동해물과 백두산이"
]
}
로그스태쉬로 데이터 넣을때 문제가 생기지 않기 위해서 다음과 같은 처리하자.
df = df.replace('\\n','<br>',regex=True)
엘라스틱서치에 노리토크나이저 적용
https://esbook.kimjmin.net/06-text-analysis/6.7-stemming/6.7.2-nori
설치하고 재시작하기
$ sudo -i service elasticsearch stop
$ sudo -i service elasticsearch start
logstash로 넣기 전에 인덱스는 먼저 생성하자 토크나이저 지정을 위해.
PUT test
{
"settings": {
"analysis": {
"analyzer": {
"nori": {
"tokenizer": "nori_tokenizer",
"filter": [ "stop","lowercase","snowball"]
}
}
}
}
}
엘라스틱서치 형태소분석기 관련 참고하면 좋을 블로그
http://kimjmin.net/2019/08/2019-08-how-to-analyze-korean/