[TIL]Day 190

이재희·2021년 6월 8일
0

TIL

목록 보기
190/312

엘라스틱서치 토큰확인

GET _analyze
{
"text": "원하는 문장"
}
GET _analyze
{
"tokenizer": "nori_tokenizer",
"text": [
"동해물과 백두산이"
]
}

로그스태쉬로 데이터 넣을때 문제가 생기지 않기 위해서 다음과 같은 처리하자.

df = df.replace('\\n','<br>',regex=True)

엘라스틱서치에 노리토크나이저 적용

https://esbook.kimjmin.net/06-text-analysis/6.7-stemming/6.7.2-nori
설치하고 재시작하기

$ sudo -i service elasticsearch stop
$ sudo -i service elasticsearch start 

logstash로 넣기 전에 인덱스는 먼저 생성하자 토크나이저 지정을 위해.

PUT test
{
  "settings": {
    "analysis": {
      "analyzer": {
        "nori": {
          "tokenizer": "nori_tokenizer",
          "filter": [ "stop","lowercase","snowball"]
        }
      }
    }
  }
}

엘라스틱서치 형태소분석기 관련 참고하면 좋을 블로그
http://kimjmin.net/2019/08/2019-08-how-to-analyze-korean/

profile
오늘부터 열심히 산다

0개의 댓글