개발을 하다보면 어느덧 프로그램이 커지고, 더이상 함수만 가지고는 다양한 데이터를 다룰 수가 없게 됩니다. 함수1에서 설정한 변수를 함수2에서 사용하고 싶으면 다시 작성해야합니다. 그래서 클래스 구조를 설계하면 코드의 반복을 최소화할 수 있고, 데이터 중심으로 객체들
대량의 텍스트 파일을 전처리할 때 한 개의 파일로 처리하는 것보다 분할하여 저장해놓는 것이 추후에 파일을 다룰 때 처리속도가 빠르다.예시로 700만 문장이 저장된 txt파일을 특정 라인수만큼 분할하여 저장한다.700만 라인을 가진 txt파일을 10만 문장씩 분할하여 새
말뭉치를 전처리하다보면 불필요한 문자열을 제거해야 할 때가 있다.정규식(re)을 사용하고 sub 함수를 통해서 제거'\\'는 정규식 메타 문자가 아닌 기호로 사용되는 문자를 표시, '|'는 or 조건을 가리킨다.