[TIL]Day 202

이재희·2021년 6월 20일
0

TIL

목록 보기
202/312

KDT 10주차 세션 강의 복습(~37분까지)
ML이 검색분야에서 어떻게 사용되는지 랭킹 위주로 세션이 진행됨.

텍스트검색엔진의 진화

1세대(1994~1998)

  • 통사적 유사성에 기반

2세대(1998~2000년대 중반)

  • 페이지내의 정보 이상의 것들을 사용하기 시작
  • 링크분석, 클릭

3세대(2000년대 중반~2010년대 초반)

  • "10 blue links"를 넘어서기
  • 검색결과의 개인화, 직접적인 답변제공

4세대(2010년대 중반~현재)

  • 딥러닝에 기반한 속성, 랭킹

검색과학의 여러 분야들

  • 랭킹적절성

  • 검색어 분석

    • 검색어 이해
    • 철자오류정정
    • 검색어 추천
  • 콘텐츠 분석

    • 페이지 분류
    • 개체 추출
  • 전체 페이지 적절성

랭킹함수의 학습

일반적인 학습과정

  1. 검색로그로부터 사용자들의 검색어 표본 추출
  2. (query,URL)에 대한 평가:(예,PEGFB 5단계)
  3. (query,URL)을 속성벡터로 나타내기
  4. 랭킹함수 학습(Learning to Rank Alogorithms)

랭킹함수의 평가

  • 오프라인 평가

    • 평가할 랭킹함수(하나 또는 다수)를 사용해서 테스트 데이터((query,URL1,URL2,...,URLp)의 집합)를 생성
    • 모든 (query,URL)들을 평가
    • 평가지표를 사용해서 랭킹함수 비교(예, DCG)

    DCG=i=1prelilog2(i+1)DCG = \sum_{i=1}^p \frac{rel_i} {log_2(i+1)}

  • 온라인 평가

    • A/B 테스트를 통해 사용자만족을 측정
    • 클릭이 많아지는지? 검색어를 얼마나 자주 재구성(reformulation)하는지?
    • 충돌이 있는 다른 지표들(예, 단기적인 수익감소)을 고려해서 종합적인 판단

랭킹함수를 위한 속성들

  • 문서 의존 속성
    • 웹그래프 관련 속성(예, PageRank)
    • 자동 문서분류 결과
  • 검색어 의존 속성
    • 검색어 의도 분류 결과
  • 검색어-문서 의존 속성
    • 통사적 텍스트 매칭(예, BM25)
    • 의미적 텍스트 매칭
  • 사용자 행동 속성
    • 클릭(예, CTR)
profile
오늘부터 열심히 산다

0개의 댓글