[TIL]Day 189

이재희·2021년 6월 7일
0

TIL

목록 보기
189/312

[DEVIEW 2020]일본어 까막눈이 만드는 일본주소검색 (검색 엔지니어는 무슨일을 할까요?)

검색의 스펙 -> 어떤 쿼리까지 지원되는가?

검색 요구사항의 예

  • 음차변환 rkdskadur -> 강남역
  • 오타교정
  • 우편번호 검색
  • 빌딩명 검색
  • 유의어 검색
  • 부분쿼리 검색
  • 다국어 쿼리 검색
  • 카테고리 검색

검색데이터분석
검색 엔지니어 업무에서 가장 많은 시간을 차지하는 것은 데이터의 품질관리. 많은양의 품질 좋은 데이터가 검색 품질과 직결됨.

분석해야할 데이터

  • 사용자 쿼리
  • 검색 대상이 되는 문서

검색의 핵심은 검색어에 대한 색인을 만드는 것

과정
1. 인덱스 텀 추출

  • 문서에서 가장 중요하고 많이 나오는 텀을 추출하는 작업
  1. inverted file 생성
  • 인덱스텀과 인덱스텀이 존재하는 문서의 DocId 목록을 맵핑
  • 일반적인 DB와 반대의 구조로 인덱싱

인덱스텀 추출
적절한 인덱스텀이 없으면, 예상되는 쿼리에 대해서 검색이 되지 않는다.
적절한 인덱스텀이란?

  • 문서의 언어와 문자 환경에 적합
  • 예상되는 사용자 쿼리의 특징에 적합
  • 검색 결과를 구성하기에 적합(모든 결과를 넣어두면 너무 많기 때문)
    텀을 추출하는 방법
  • 공백단위 구분 추출
  • n-gram 추출
  • 형태소 분석기 추출
  • NLU를 사용한 추출


쿼리연산을 하기 때문에 실행속도 최적을 위해서는 특징을 잘 나타내는 텀이 중요하다. == 모든 문서에 들어간 텀은 실행속도에 영향을 미침

네이버 일본어 주소검색
볼드체가 사용하는 것

25분까지 시청

크롬드라이버 관련 잘 정리된 블로그
https://m.blog.naver.com/jsk6824/221763151860

profile
오늘부터 열심히 산다

0개의 댓글