2차 멘토링 <search studio>

하이·2023년 4월 23일
0

수업

목록 보기
41/41
post-custom-banner

정보검색시스템

검색 시스템

  • 데이터 검색 : 구조화된 DB에서 레코드 검색
  • 정보 검색

마이닝 시스템

  • 데이터 마이닝 : 정형데이터의 분석을 통해 새로운 지식 발굴
  • 텍스트 마이닝 : 비정형 텍스트의 분석을 통해 새로운 지식을 발굴

RDBMS vs 검색엔진

RDBMS의 한계
: 단순 텍스트 매칭에 대한 검색만 제공
: 텍스트를 여러 단어로 변형하거나 동의어/유의어 활용 검색이 불가능
: 비정형데이터의 색인/검색 불가

검색엔진
: 텍스트를 여러 단어로 변형하거나 동의어/유의어 활용 검색 가능
: 비정형 데이터의 색인과 검색 가능
: 형태소 분석을 통한 자연어 처리 가능

정보검색 시스템 원리

사용자가 필요로하는 정보를 수집하고, 그 내용을 분석한 뒤, 찾기쉬운 형태로 조직 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템

색인모듈

문서표현

단어 순서는 고려하지 않고, 출현빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

TF/IDF

Terms Frequency
하나의?에서 DF는 무조건 1
IDF는 DF의 역

정보검색 시스템 구성

인덱싱과정
: 원시 정보 수집 - 정보 필터링 - 언어처리(형태소분석/) - 인덱싱 키워드 추출 - 인덱스 파일 생성
질의/검색 과정
: 정보요청 - 질의 분석 - 질의 확장(동의어)- 인덱스 검색 및 연산 - 순위화(랭킹)

Inverted File(DOR)

첫 검색시 이 정보를 이용해 필드별 정렬정보 생성
.tis - 저장 - 전처리 - USER
김건오/김민정/김영곤/김영택 ->김건오/민정/영곤/택
이런식으로 효율적으로 함

색인(Index)

: 책 속 낱말,구절, 이에 관한 지시자를 찾아보기 쉽도록 일정한 순서로 나열한 목록
: 특정 데이터가 어느 위치에 있는지 미리 저장하여 검색시 빠른 속도로 찾을 수 있음
:데이터셋이 많은 경우 1~50만번까지 순차대로 검색

질의/검색 과정

질의 분석

: 질의 형식의 구조와 질의어 의미 분석 수행
ex) 키워드 검색, 자연어 검색 등

질의 확장(동의어)

: 검색 결과의 정확율/재현율을 올리기 위해 다양한 방법으로 질의 확장

인덱스 파일 검색

: 분석/확장된 질의어를 인덱싱 된 저장 구조로부터 검색
: Boolean/Prefix/Near/Pharse

검색 결과 정렬

: 검색된 정보들을 질의어와 연관성(tf/idf)등에 따라 재정렬하는 과정

검색 결과 표현

: 검색된 결과를 사용자에게 효과적으로 표현
: 문서내용을 미리 보여주거나, 직관적인 시각화 툴을 제공하기도 함

Boolean Model
SCORE Model

DISCOVERY
시멘틱 통합 검색
강력한 비정형분석(텍스트마이닝)
패싯필터와 강력한 질의 처리
대규모 분산 병렬처리
다양한 데이터 소스
강력한 접근제어와 보안

형태소분석은
국회/의원 이런 식..
그래서 바이그램..으로 회의 라고 검색해도 국회/회의/의원 이렇게 됨

profile
기록의 즐거움 😆💻
post-custom-banner

0개의 댓글