Azure AI Search: Lexical 검색과 Semantic 검색 비교 분석

danbi lee·2025년 4월 28일

Azure

목록 보기
4/8

전통적인 키워드 검색

  • 정확한 단어나 구문 매칭에 의존한다.
  • '강아지 훈련 방법'으로 검색시 정확히 이 단어들이 포함된 문서만을 찾는다.
  • 동의어나 관련 개념이 다른 단어로 표현된 문서는 찾지 못한다.
  • 맥락이나 의미를 이해하지 못한다.

Lexical 검색

  • 정확한 텍스트 매칭에 기반하지만 토큰화, 형태소 분석, 불용어 처리 등 고급 텍스트 처리 기술을 활용한다.
  • 역색인 구조를 사용해 대용량 데이터에서도 빠른 검색 성능을 제공한다.
  • '강아지 훈련 방법'으로 검색시 '강아지들의 훈련 방법' 같은 변형된 표현을 찾을 수 있다.
  • 퍼지 검색을 통해 '갱아지'(오타)로 검색해도 결과를 찾을 수 있다.
  • BM25 같은 고급 랭킹 알고리즘으로 관련성 높은 결과를 우선 표시한다.

시맨틱 검색

  • 단어의 의미와 맥락을 이해하고 유사한 개념을 찾는다.
  • 질의의 의도와 문맥을 파악해 의미적으로 관련된 결과만 반환한다.
  • '강아지 훈련 방법'으로 검색시 '반려견 교육 팁'이나 '펫 트레이닝 가이드'같은 문서도 찾을 수 있다.
  • 언어의 뉘앙스, 동의어, 관련 개념까지 포괄한다.

시맨틱 태그는 아는데!
시맨틱 태그란 <div> 처럼 의미 없는 박스가 아닌, <header> 처럼 콘텐츠의 의미를 명시적으로 표현하기 위해 사용되는 메타데이터 요소를 말한다.

Azure AI Search 에서는 필터링(태그 기반)과 시맨틱 검색(임베딩 기반)을 결합할 수 있다.
시맨틱 태그는 검색 시스템에 추가적인 문맥과 구조를 제공해, 시맨틱 검색의 정확도를 향상시키는데 도움을 줄 수 있다. => TODO: 진짜인지 테스트를 해보자!

시맨틱 태그 작동 방식

  1. 임베딩 생성
  2. 벡터 유사도 계산
  3. 하이브리드 접근 방식

Semantic Tags

profile
계속해서 보완중

0개의 댓글