검색 시스템
마이닝 시스템
RDBMS의 한계
: 단순 텍스트 매칭에 대한 검색만 제공
: 텍스트를 여러 단어로 변형하거나 동의어/유의어 활용 검색이 불가능
: 비정형데이터의 색인/검색 불가
검색엔진
: 텍스트를 여러 단어로 변형하거나 동의어/유의어 활용 검색 가능
: 비정형 데이터의 색인과 검색 가능
: 형태소 분석을 통한 자연어 처리 가능
사용자가 필요로하는 정보를 수집하고, 그 내용을 분석한 뒤, 찾기쉬운 형태로 조직 정보에 대한 요구가 발생했을 때, 해당 정보를 찾아 제공하는 시스템
색인모듈
단어 순서는 고려하지 않고, 출현빈도(frequency)
에만 집중하는 텍스트 데이터의 수치화 표현 방법
Terms Frequency
하나의?에서 DF는 무조건 1
IDF는 DF의 역
인덱싱과정
: 원시 정보 수집 - 정보 필터링 - 언어처리(형태소분석/) - 인덱싱 키워드 추출 - 인덱스 파일 생성
질의/검색 과정
: 정보요청 - 질의 분석 - 질의 확장(동의어)- 인덱스 검색 및 연산 - 순위화(랭킹)
첫 검색시 이 정보를 이용해 필드별 정렬정보 생성
.tis - 저장 - 전처리 - USER
김건오/김민정/김영곤/김영택 ->김건오/민정/영곤/택
이런식으로 효율적으로 함
: 책 속 낱말,구절, 이에 관한 지시자를 찾아보기 쉽도록 일정한 순서로 나열한 목록
: 특정 데이터가 어느 위치에 있는지 미리 저장하여 검색시 빠른 속도로 찾을 수 있음
:데이터셋이 많은 경우 1~50만번까지 순차대로 검색
: 질의 형식의 구조와 질의어 의미 분석 수행
ex) 키워드 검색, 자연어 검색 등
: 검색 결과의 정확율/재현율을 올리기 위해 다양한 방법으로 질의 확장
: 분석/확장된 질의어를 인덱싱 된 저장 구조로부터 검색
: Boolean/Prefix/Near/Pharse
: 검색된 정보들을 질의어와 연관성(tf/idf)등에 따라 재정렬하는 과정
: 검색된 결과를 사용자에게 효과적으로 표현
: 문서내용을 미리 보여주거나, 직관적인 시각화 툴을 제공하기도 함
Boolean Model
SCORE Model
DISCOVERY
시멘틱 통합 검색
강력한 비정형분석(텍스트마이닝)
패싯필터와 강력한 질의 처리
대규모 분산 병렬처리
다양한 데이터 소스
강력한 접근제어와 보안
형태소분석은
국회/의원 이런 식..
그래서 바이그램..으로 회의 라고 검색해도 국회/회의/의원 이렇게 됨