자연어 전처리
자연어 처리 단계
- Task 설계
- 필요 데이터 수집
- 통계학적 분석(EDA)
- Token 개수 파악 & 아웃라이어 제거
- 빈도를 확인하여 Dictionary 정의
- 전처리
- 개행문자, 특수문자, 공백, 이메일이나 링크 제거
- 불용어, 조사, 제목 등 제거
- 최근에는 불용어나 조사를 활용하는 경우도 존재하므로, 고려하여 처리
- 띄어쓰기, 문장분리 보정
- 중복 표현 제어
- Tagging 및 Tokenizing
- Tokenizing 방법 : 어절, 형태소, WordPiece Tokenizing 등
- 모델 설계
- 모델 구현
- 성능 평가
Python String 관련 함수
- 대소문자 변환
- upper() : 대문자로 변환
- lower() : 소문자로 변환
- capitalize() : 문자열의 첫 문자를 대문자로 변환
- title() : 문자열에서 각 단어의 첫 문자를 대문자로 변환
- 편집 및 치환
- strip() : 좌우 공백 제거
- rstrip() : 오른쪽 공백 제거
- lstrip() : 왼쪽 공백 제거
- replace(a,b) : a를 b로 치환
- 분리, 결합
- split() : 공백으로 분리
- ''.join(s) : 리스트 s에 있는 요소를 String으로 결합
- 문자열 판별
- startswith('hi') : 문자열이 hi로 시작하는지 파악
- endswith('hi') : 문자열이 hi로 끝나는지 파악
- 검색
- count('hi') : 'hi'가 출현한 횟수 반환
- find('hi') : "처음" 'hi'가 출현한 위치 리턴. 없을 경우 -1 반환
- index('hi') : find()와 비슷하나 없을 경우 Exception 발생