[EDA] Encoding Error

이민아·2023년 10월 28일
0

EDA

목록 보기
3/5

cvs 파일을 불러오다가 아래의 에러에 직면했다.

'utf-8' codec can't decode byte 0xe9 in position 0: invalid continuation byte

에러 발생 이유
: 텍스트 파일을 읽거나 쓸 때, 파일의 인코딩이 잘못되었거나, 읽으려는 파일의 인코딩과 파이썬이 가정하는 인코딩이 맞지 않을 때 발생합니다

: 읽어드릴 파일의 포맷이 UTF-8이 아니기 때문에 발생한다.

🖤 해결 방법

1. 인코딩 에러를 무시하는 방법 (encoding_errors='ignore')

: 에러를 무시하는 것이다.
: 다음과 같이 encoding_errors를 ignore로 하면 해결할 수 있다.

df = pd.read_csv('test.csv', encoding_errors='ignore')

2. 인코딩 포맷을 찾아서 해결하는 방법

: csv파일의 포맷을 찾아서 read_csv에 알려주는 것이다.

: chardet이란 모듈을 이용한다.

  • 설치 명령어
pip install chardet 
# or 
conda install chardet

설치를 하고 다음과 같이 실행해보자.

immport chrdet

with open("읽어올 파일 경로/읽어올파일.csv", 'rb') as rawdata:
	result = chardet.detect(rawdata.read(10000))
print(result)

  • ISO-8859-1을 찾았으니 적용 시키자.
df = pd.read_csv('test.csv', encoding_errors='ISO-8859-1')
profile
IT업계 종사자

0개의 댓글

관련 채용 정보