[NLP] 용어정리 - 1

cateto·2021년 4월 26일
0
post-thumbnail

자연어(Natural Language)

인공어(FORTRAN, COBOL과 같은 프로그래밍 언어류)와 다른 언어.
자연발생적으로 생겨나고 인간이 의사소통을 행하기 위한 수단으로서 사용되고 있는 언어.

자연어 처리(Natural Language Processing)

자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일

  • 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야

코퍼스(Corpus)

말뭉치.
글 또는 말, 텍스트를 모아 놓은 것.
컴퓨터에 저장하고 컴퓨터에서 처리할 수 있는 형태의 전자화된 텍스트.

텍스트 전처리(Text preprocessing)

텍스트를 프로그램에 넣기 전에 컴퓨터가 이해하기 쉬운 방식으로 변환을 해주는 것.
입력 데이터셋에 섞여 있는 불필요한 노이즈를 제거하거나 데이터를 일관성있게 만드는 정규화 과정을 포함.

  • 노이즈 제거
  • 텍스트 정교화
  • 한글은 교착어

출처 : https://happygrammer.github.io/nlp/text-preprocessing/

참고 : 한국어 전처리

profile
Curious for Everything

0개의 댓글