원시 데이터, 원천 데이터, labelled 데이터
해외 경진대회: kaggle
국내 경진대회: Dacon

정보자료(문서)의 내용을 표현하는 어휘(사용자 질의어)가 포함된 '문서'를 효율적으로 검색하기 위한 목적
각 문서에서 사용자 질의에 의해 검색 대상이 되는 어휘들을 색인하는 작업
이용자에게 빠른 속도로 검색결과를 제공함으로써 방대한 정보자료의 탐색시간 최소화 가능
색인과정: 전방향 색인, 역방향 색인
<문서, 색인어 list>
문서(doc ID) 색인어 및 가중치
001 (병렬4), (시스템3), (특성1), (설계2), (연구3)
002 (정보2), (검색3), (시스템3), (연구3), (성과1)
003 (프로그램4), (시스템3), 설계4), (성능1), (향상1)
004 (병렬2),(프로그램2),(연구6)
문서빈도 및 TF-IDF 계산
문서빈도 (DF: Document Frequency) 계산
--> 각 색인어의 출현 문서개수
문서 벡터 생성: 색인어 가중치 TF-IDF 계산 (IDF = 1/DF) --> TF % IDF
Inverted file 생성: backward indexing
<문서, 색인어 list> -> <색인어, 문서 list>로 재구성
역방향 색인에 의한 색인 결과를 색인 DB에 저장
색인어마다 (문서번호, 가중치) 개수 차이가 큼


정의: 사용자 질의 분석, 질의에 적합한 문서를 찾는 과정
검색 단계
주요 검색 모델, boolean model, vectorspace model, 확률 모델
이 중에서는 vectorspace model(VSM)을 가장 많이 사용함
질의 분석




검색엔진의 목표: 자연어 검색
초기: 질의어, 키워드 에 적합한 문서들을 번호들에 나열
최근: 질의응답 시스템 (Question and answering system)
현실: '색인어'로 웹문서/뉴스/블로그/동영상 검색
지식 = 표현 + 생성 + 검색
생성(인간 유전자 염기서열, 인간 커넥텀 프로젝트, 빅 메커니즘), 검색(Google's Pagerank 알고리즘)
순서 메기기: 사람들이 가장 많이 볼것같은 페이지가 우선
page = node --> : link
많이 링크할수록 중요한 노드 weight(가중치) 계산
검색엔진의 구조 개요 (강승식 교수)
SNU ON_컴퓨터과학이 여는 세계 지식검색: 구글페이지 순위 매기기 (이광근 교수)