- 대량의 텍스트 파일을 전처리할 때 한 개의 파일로 처리하는 것보다 분할하여 저장해놓는 것이 추후에 파일을 다룰 때 처리속도가 빠르다.
- 예시로 700만 문장이 저장된 txt파일을 특정 라인수만큼 분할하여 저장한다.
def split_txt(filename):
with open(filename, 'r') as txt:
lines = txt.readlines()
cnt = 1
file_name_num = 1
for line in lines:
strip_line = line.strip()
file_name = 'aihub_' + str(file_name_num) + '.txt'
fw = open(file_name, 'a')
fw.write(f'{strip_line}\n')
fw.close()
if cnt == 100000:
file_name_num = file_name_num +1
cnt = 0
cnt = cnt + 1
split_txt('aihub_src.txt')
- 700만 라인을 가진 txt파일을 10만 문장씩 분할하여 새 txt파일로 저장 :D