텍스트 전처리(Text preprocessing) = 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 요리를 할 때 재료를 제대로 손질하지 않으면, 요리가 엉망이 되는 것처럼 텍스트에 제대로 전처리를 하지 않으면 원하는 결과와 멀어
문장 토큰화(Sentence Tokenization)이번에는 토큰의 단위가 문장(sentence)일 경우를 이야기해보겠습니다. 이 작업은 갖고있는 코퍼스 내에서 문장 단위로 구분하는 작업으로 때로는 문장 분류(sentence segmentation)라고도 부릅니다. 보
정제(Cleaning) and 정규화(Normalization) = 머신러닝에 대해 조금이라도 공부해본 사람이라면 표준화와 정규화는 정말 수도없이 들어봤을거라 생각한다.혹시나 궁금해할 분들을 위해 잘정리된 글도 준비해 보았다! 표준화와 정규화 하지만 이번시간에 우리가
어간 추출(Stemming)과 표제어 추출(Lemmatization)정규화 기법중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법으로는 Stemming과 Lemmatization이 있다. 자연어 처리에서의 정규화는 항상 주어진 코퍼스로 부터 복잡성을 줄이는 일이라고 생
Regular Expression(정규 표현식)정규표현식(正規表現式, Regular Expression)은 문자열을 처리하는 방법 중의 하나로 특정한 조건의 문자를 '검색'하거나 '치환'하는 과정을 매우 간편하게 처리 할 수 있도록 하는 수단이다. text를 다룰때 어
이번 시간에는 정규 표현식 모듈 함수 예제를 실습해볼 예정이다!Regular Expression moduel 함수<span style='background-color: -search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문
정수 인코딩(Integer Encoding)<span style='background-color: 예를 들어 갖고 있는 텍스트에 단어가 5,000개가 있다면, 5,000개의 단어들 각각에 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수. 다른 표현으로는 인덱