csv encoding 한글 문제

김하찌·2020년 9월 26일
1
post-thumbnail

한글 인코딩 문제 발생

save_file = pd.DataFrame(data['naver'], columns = ['name', 'text', 'url'])
save_file.to_csv('test.csv', encoding ='utf-8', index = False)

크롤링을 하고, pandas를 이용해서 파일을 저장하려고 했습니다.
그런데 다음과 같이 한글이 깨지는 문제가 발생하였습니다.

utf-8-sig

save_file = pd.DataFrame(data['naver'], columns = ['name', 'text', 'url'])
save_file.to_csv('test.csv', encoding ='utf-8-sig', index = False)

utf-8 -> utf-8-sig 로 변경하고 실행시키니 잘 저장된 것을 확인할 수 있습니다.

'utf-8-sig'에서 'sig'는 'signature'의 약칭입니다. 'utf-8-sig'를 사용하면 스트링 즉, 문자열로 처리하는게 아니라 Byte Order Mark(BOM)으로 취급합니다.

profile
성장하는 개발자

0개의 댓글