자연어 전처리

DONGJIN IM·2022년 4월 25일
0

AI 실전 활용 관련

목록 보기
7/7
post-thumbnail

자연어 전처리

자연어 처리 단계

  1. Task 설계
  2. 필요 데이터 수집
  3. 통계학적 분석(EDA)
    • Token 개수 파악 & 아웃라이어 제거
    • 빈도를 확인하여 Dictionary 정의
  4. 전처리
    • 개행문자, 특수문자, 공백, 이메일이나 링크 제거
    • 불용어, 조사, 제목 등 제거
      • 최근에는 불용어나 조사를 활용하는 경우도 존재하므로, 고려하여 처리
    • 띄어쓰기, 문장분리 보정
    • 중복 표현 제어
  5. Tagging 및 Tokenizing
    • Tokenizing 방법 : 어절, 형태소, WordPiece Tokenizing 등
  6. 모델 설계
  7. 모델 구현
  8. 성능 평가

Python String 관련 함수

  • 대소문자 변환
    • upper() : 대문자로 변환
    • lower() : 소문자로 변환
    • capitalize() : 문자열의 첫 문자를 대문자로 변환
    • title() : 문자열에서 각 단어의 첫 문자를 대문자로 변환
  • 편집 및 치환
    • strip() : 좌우 공백 제거
    • rstrip() : 오른쪽 공백 제거
    • lstrip() : 왼쪽 공백 제거
    • replace(a,b) : a를 b로 치환
  • 분리, 결합
    • split() : 공백으로 분리
    • ''.join(s) : 리스트 s에 있는 요소를 String으로 결합
  • 문자열 판별
    • startswith('hi') : 문자열이 hi로 시작하는지 파악
    • endswith('hi') : 문자열이 hi로 끝나는지 파악
  • 검색
    • count('hi') : 'hi'가 출현한 횟수 반환
    • find('hi') : "처음" 'hi'가 출현한 위치 리턴. 없을 경우 -1 반환
    • index('hi') : find()와 비슷하나 없을 경우 Exception 발생
profile
개념부터 확실히!

0개의 댓글