python - Text 문자열 split

0

python 기초

목록 보기
2/3
post-thumbnail
  • 대량의 텍스트 파일을 전처리할 때 한 개의 파일로 처리하는 것보다 분할하여 저장해놓는 것이 추후에 파일을 다룰 때 처리속도가 빠르다.
  • 예시로 700만 문장이 저장된 txt파일을 특정 라인수만큼 분할하여 저장한다.
def split_txt(filename):

    with open(filename, 'r') as txt:
        lines = txt.readlines()

    cnt = 1
    file_name_num = 1
    for line in lines:
        strip_line = line.strip()
        file_name = 'aihub_' + str(file_name_num) + '.txt'

        fw = open(file_name, 'a')
        fw.write(f'{strip_line}\n')
        fw.close()

        if cnt == 100000:
            file_name_num = file_name_num +1
            cnt = 0

        cnt = cnt + 1

split_txt('aihub_src.txt') 
  • 700만 라인을 가진 txt파일을 10만 문장씩 분할하여 새 txt파일로 저장 :D
profile
나 응애👶 개발자, 딥린이👨‍💻, 언어 연구자 👨‍🎓

0개의 댓글