데이터 전처리 encoding 오류

CHOI CHOI·2023년 12월 18일
0

파이썬 중급

목록 보기
8/30

데이터 분석을 하려고 .csv파일을 read하는 순간 오류가 났다!

에러 발생 이유
: 텍스트 파일을 읽거나 쓸 때, 파일의 인코딩이 잘못되었거나, 읽으려는 파일의 인코딩과 파이썬이 가정하는 인코딩이 맞지 않을 때 발생합니다

: 읽어드릴 파일의 포맷이 UTF-8이 아니기 때문에 발생한다.

🖤 해결 방법
1. 한글 파일에 맞는 인코딩을 설정해준다 'utf-8' , 'utf-8-sig'
2. 인코딩 에러를 무시하는 방법 (encoding_errors='ignore')
: 에러를 무시하는 것이다.
: 다음과 같이 encoding_errors를 ignore로 하면 해결할 수 있다.

df = pd.read_csv('test.csv', encoding_errors='ignore')
  1. 인코딩 포맷을 찾아서 해결하는 방법
    : csv파일의 포맷을 찾아서 read_csv에 알려주는 것이다.

: chardet이란 모듈을 이용한다.

설치 명령어

pip install chardet 

or

conda install chardet
설치를 하고 다음과 같이 실행해보자.

immport chrdet

with open("읽어올 파일 경로/읽어올파일.csv", 'rb') as rawdata:
	result = chardet.detect(rawdata.read(10000))
print(result)

ISO-8859-1을 찾았으니 적용 시키자.
df = pd.read_csv('test.csv', encoding_errors='ISO-8859-1')

profile
뭐가 됐든 데이터분석가

0개의 댓글