인공어(FORTRAN, COBOL과 같은 프로그래밍 언어류)와 다른 언어.
자연발생적으로 생겨나고 인간이 의사소통을 행하기 위한 수단으로서 사용되고 있는 언어.
자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일
말뭉치.
글 또는 말, 텍스트를 모아 놓은 것.
컴퓨터에 저장하고 컴퓨터에서 처리할 수 있는 형태의 전자화된 텍스트.
텍스트를 프로그램에 넣기 전에 컴퓨터가 이해하기 쉬운 방식으로 변환을 해주는 것.
입력 데이터셋에 섞여 있는 불필요한 노이즈를 제거하거나 데이터를 일관성있게 만드는 정규화 과정을 포함.
출처 : https://happygrammer.github.io/nlp/text-preprocessing/
참고 : 한국어 전처리