2021년 2학기 데이터 관리와 분석 전공 강의에서 진행하였던 프로젝트를 정리하고자 한다. 한 학기동안 DB에 대해서 이해하고 SQL을 통해 이를 다루는 법을 배웠다.
2차 프로젝트 DB mining 및 Automated Recommendation System 구현을 목적으로 한다.
3차 프로젝트 텍스트 데이터에 대해 검색 엔진 모듈, 분류 및 군집화 모델 구현을 목적으로 한다. 3차 프로젝트는 문서 검색 엔진과 문서 분류 및 군집화로 이루어져 있다.
tf-idf란 단어의 중요도를 계산하는 가장 대표적인 기법이다.
SVD 하기 전에 대각화를 알아야 되고 대각화를 알기 전에 고유값(eigen value)과 고유 벡터(eigen vector)에 대해 알아야 한다.. 맨날 까먹어서 정리한다.
SVD 하기 전에 대각화를 알아야 되고 대각화를 알기 전에 고유값(eigen value)과 고유 벡터(eigen vector)에 대해 알아야 한다.. 맨날 까먹어서 정리한다.
공분산 행렬을 먼저 이해할 필요가 있다.
word representation의 필요성