머신 러닝 워크플로우(Machine Learning Workflow)

ganta·2021년 3월 2일
0

자연어 전처리

목록 보기
1/8
post-thumbnail

이 글은 Wikidocks의 딥 러닝을 이용한 자연어 치리 입문을 공부한 내용을 정리 한 글입니다.

머신 러닝 워크플로우(Machine Learning Workflow)


✔️ 데이터 수집 후 머신러닝을 하는 과정

👉 수집(Acquisition)
기계를 학습 시켜야 할 데이터
자연어 처리의 경우 말뭉치 혹은 코퍼스(corpus)라고 부른다
코퍼스란?
조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 켁스트 집합을 의미
텍스트 데이터의 파일 형식은 txt, csv, xml파일 등 다양하며 출처도 음성 데이터, 웹 수집기를 통해 수집된 데이터 등 다양하다.

👉 점검 및 탐색(Inspection and exploration)
데이터를 점검하고 탐색하는 단계
데이터의 구조, 노이즈 데이터, 머신 러닝 적용을 위해 데이터를 어떻게 정재해야하는지 파악
탐색적 데이터 분석(Exploratory Data Analysis, EDA) 단계라고도 하며 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하며 데이터의 특징과 내재하는 구조적 관계를 알아내는 과정 의미

👉 전처리 및 정제(Preprocessing and Cleaning)
많은 단계를 포함하며 자연어 처리라면 토큰화, 정제, 정규화, 불용어 제거등의 단계를 포함
다양한 지원되는 라이브러리에 대한 지식이 필요
까다로운 전처리의 경우 전처리 과정에서 머신러닝이 사용되기도 함

👉 전처리 및 정제(Preprocessing and Cleaning)
적절한 머신 러닝 알고리즘을 선택하여 모델링 후 데이터를 머신 러닝 알고리즘을 통해 기계 학습(훈련)을 시킨다.
이러한 과정 이후 우리가 원하는 태스크(task)인 기계 번역, 음성 인식, 텍스트 분류 등의 자연어 처리 작업을 수행
❗️이때, 훈련 데이터와 테스트 데이터를 분리하여 훈련을 시켜야 한다.
더 세부적인 경우 훈련, 검증, 테스트 데이터 순으로 나눠 수행을 시킴


👉 평가(Evaluation)
기게 학습 종료 후 테스트용 데이터로 성능을 평가

👉 배포(Deployment)
기계가 성공적으로 훈련이 되었으면 완성된 모델을 베포해야 하고 완성된 모델에 대한 전체적인 피드벡을 고려하여 모델을 변경해야 하는 상황 시 처음부터 돌아가야 하는 상황이 일어날 수 있다.

profile
한걸음씩 꾸준히

0개의 댓글