시리즈

자연어처리입문

1.NLP 필요 프레임워크,라이브러리, 패키지 설치

자연어처리를 공부하고 있다고 하지만 자꾸 기초와 기본지식을 자주 잊어버리는 것 같아 다시 복습하려고 합니다 책은 딥러닝을 이용한 자연어처리 입문을 사용하여 기본지식부터 모델링 까지 해보겠습니다 프레임워크와 라이브버리 설치 텐서플로우 (Tensorflow) 구글에서

2025년 3월 10일

머신러닝 워크플로우(Machine Learning Workflow) 수집 (Acquisition) 머신런닝을 하기 위해서는 기계에 학습시켜야 할 데이터가 필요 텍스트 데이터의 파일 형식은 txt,csv,xml 파일 등 댜양 점검 및 탐색(Inspection and

2025년 3월 13일

Tokenization 주어진 코퍼스(말뭉치)에서 토큰이라 불리는 단위로 나누는 작업을 토큰화 코퍼스 : 언어 데이터(주로 텍스트)의 큰 집합을 의미 Word Tokenization 토큰의 기준이 단어일 경우, 단어 토큰화를 한다고 함 예) 입력으로부터 구두점과 같은

2025년 3월 28일

정제와 정규화 토큰화 작업 전에 텍스트 데이터를 용도에 맞게 정제및 정구화를 한다 > 정제: 갖고 있는 코퍼스로 부터 노이즈 데이터를 제거한다 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다 불필요한 단어의 제거 노이즈 데이터는 자연어가 아니

2025년 4월 11일