프로젝트를 진행하던 중 데이터를 합치는 과정에서 저장 후 다시 불러오면 데이터 양이 증가하는 문제가 발생했다.
마지막 데이터를 살펴봐도 이상한 부분이 없었다.
정말 불행하게도 데이터를 아무리 확인해도 문제를 찾을 수 없었고 정말 수많은 시도 끝에 이유를 알게 되었다.
바로 4번째 파일에 문제가 있었던 것이다. 하지만 pd.concate으로 합치니 아무런 에러메시지가 발생하지 않았고 이로 인해 찾는데 엄청 오랜 시간이 걸렸다.
pd.read_csv('error.csv',encoding='utf-8',index_col=0)
아래와 같이 수정하면 해결되었다.
pd.read_csv('paper_dataset.csv',encoding='utf-8',lineterminator='\n')
알게된 이유로는 아래와 같이 \r을 줄바꿈으로 잘못해석하는 경우 때문에 발생한다고 한다. 따라서 위의 코드처럼 lineterminator='\n'로 명확히 하면 해결된다.