이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 데이터 수집 후 머신러닝을 하는 과정👉 수집(Acquisition)기계를 학습 시켜야 할 데이터자연어 처리의 경우 말뭉치 혹은 코퍼스(corpus)라고 부른다코퍼스
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 토큰화란?주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다.✔️ 단어 토큰화(Word Tokenization)란?토큰의 기준을 단어
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 정제(Cleaning)갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.✔️ 정규화(Normalization)표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 어간 추출(Stemming), 표제어 추출(Lemmatization) 둘의 목적은 눈으로 보았을 때는 서로 다른 단어이지만, 하나의 단어로 일반화시킬 수 있으면 하나
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다. ✔️ 갖고 있는 데이터에서 유의미한 토큰만을 선별하기 위해 큰 의미가 없는 단어 토큰을 제거하는 작업 예시) I, my, me, over, 조사, 접미사 같은 단어는
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 컴퓨터는 켁스트보다 숫자를 더 잘 처리할수 있기에 이를 위해 자연어 처리는 텍스트를 숫자로 바꾸는 여러가지 기법들이 존재한다.이 방법은 첫 단계로 각 단어를 고유한
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 자연어 처리를 하다 보면 각 문장(문서)의 길이가 서로 다를 수 있는데 기계는 길이가 전부 동일한 문서들에 대하여 하나의 행렬로 보고, 한꺼번에 묶어 처리하기에 pa
이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.✔️ 이번 포스팅에서는 한국어 전처리 패키지를 별도로 공부해본 내용입니다.✔️ 한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는