
자연어처리를 공부하고 있다고 하지만 자꾸 기초와 기본지식을 자주 잊어버리는 것 같아 다시 복습하려고 합니다 책은 딥러닝을 이용한 자연어처리 입문을 사용하여 기본지식부터 모델링 까지 해보겠습니다 프레임워크와 라이브버리 설치 텐서플로우 (Tensorflow) 구글에서

머신러닝 워크플로우(Machine Learning Workflow) 수집 (Acquisition) 머신런닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요 텍스트 데이터의 파일 형식은 txt,csv,xml 파일 등 댜양 점검 및 탐색(Inspection and
Tokenization 주어진 코퍼스(말뭉치)에서 토큰이라 불리는 단위로 나누는 작업을 토큰화 코퍼스 : 언어 데이터(주로 텍스트)의 큰 집합을 의미 Word Tokenization 토큰의 기준이 단어일 경우, 단어 토큰화를 한다고 함 예) 입력으로부터 구두점과 같은
정제와 정규화 토큰화 작업 전에 텍스트 데이터를 용도에 맞게 정제및 정구화를 한다 > 정제: 갖고 있는 코퍼스로 부터 노이즈 데이터를 제거한다 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다 불필요한 단어의 제거 노이즈 데이터는 자연어가 아니