개념NLP는 단어 or 문서의 의미를 나타내는 표현을 얻는 것부터 시작한다가장 간단한 단어의 의미 표현 방법으로 one-hot vector가 있다이 one-hot vector의 문제점은 각각의 vector가 모두 직교(orthogonal)하기 때문에 내적하면 0이되는데
개념DTM과 같은 단순 빈도수 기반 방법론의 문제는 중요한 단어와 불필요한 단어를 구분하지 못한다는 것이다예를 어 the, this, is 같은 stopwords(불용어)들은 어떤 문서이든 빈도수가 높지만 해당 문서를 대변하는 단어라고 볼 수 없다문서를 대변하는 단어에
개념데이터와 풀고자 하는 문제에 맞게 특정 거리함수를 잘 선택해야한다DistanceFunction 하나만 바뀌어도 성능이 크게 달라진다여러 거리 함수가 존재하고 각 거리함수별 장단점이 무엇인지 파악해야 적절한 거리함수를 사용할 수 있다피타고라스의 정리로 정의되는 유클리
개념토큰화 : 주어진 corpus에서 토큰이라 불리는 단위로 나누는 작업 / 토큰의 단위가 상황에 따라 다르지만 보통 의미있는 단위로 토큰을 정의단순히 띄어쓰기로 단어를 구분하게 되면 숙어, 구문, 지명 등이 나눠져서 의미를 잃게되므로 토큰화 규칙을 이에 맞게 변경해야