우선 예전에 코드를 한 번 보았다
corr_df = pandas.DataFrame()
if __name__ == '__main__': # for windows os
freeze_support() # for windows os
with Pool(processes=15) as pool:
pool_size = 15
chunk_size = 2000 * pool_size
count = 0
for file_chunk in pd.read_csv('../csv/data_compact.csv', low_memory=False, chunksize=chunk_size):
line = count * chunk_size
print(f"Processing {chunk_size} lines after line {line}")
# Split chunk evenly. It's better to use this method if every chunk takes similar time.
pool.map(processing_chunk, pd.np.array_split(file_chunk, pool_size))
count += 1
pool.close()
pool.join()
https://subscription.packtpub.com/book/programming/9781783989263/1/ch01lvl1sec08/three-constraints-on-computing-performance-cpu-ram-and-disk-io
아래 설명은 위 사이트를 참조했다.
정확한 내용은 아니고 제가 생각한 내용입니다.
다시 설명하면
조금 자세히 보면
아이디어와 상황고려?
살아계셨군요 ^____^ b