[Python/Pandas] pd.read_csv의 lineterminator, quotechars

영이·2024년 5월 24일
0

문제 상황

pd.read_csv를 이용해서 csv 파일을 읽어오려고 하는 상황에서, null값이 다수 발생하는 상황이었다. 만들어진 데이터프레임과 csv파일을 대조해본 결과, 하나의 셀에 들어가야 할 값인데, 줄바꿈이 되어있어서 다른 셀로 인식이 되는 상황이었다.

위의 파일을 살펴보면, 2~5번째 줄의 .은 하나의 트윗 안의 데이터이므로 UP or DOWN과 같은 셀의 데이터로 인식되어야 하는데 그러지 않고, 점 하나가 하나의 행으로 인식되어 오류가 발생하였다.
구글링을 해본 결과

lineterminator, quotechars

를 사용하여 해결할 수 있었다.

lineterminator

줄바꿈을 나타내는 문자이다. \n으로 지정해주었다.

quotechars

quotechars = '"'로 지정해주면, "로 둘러싸인 값을 하나의 셀로 인식하겠다는 뜻이다.
위 파일 사진을 살펴보면 ""로 하나의 트윗 내용이 감싸져 있기 때문에 quotechars를 지정해주어야 했다.

profile
연구가 싫었는데 어쩌다보니 대학원생이 되어버린 몸

0개의 댓글