데이터 분석 과정에서 문자열 데이터가 숫자형 데이터와 섞여 있으면 계산이나 분석에 문제가 생깁니다. 이를 해결하기 위해 데이터를 일관된 형식으로 변환해야 합니다.
데이터프레임에서 거래액 컬럼에 숫자형(int)과 문자열(str)이 섞여 있는 경우를 처리해야 합니다. 특히, 값이 '-'와 같이 숫자가 아닌 문자열로 저장된 경우, 계산 오류가 발생할 수 있습니다.
str_to_int() 함수를 사용하여 문자열을 숫자형 데이터로 변환합니다:
python
코드 복사
# 문자열을 정수로 변환하는 함수
def str_to_int(x):
# 데이터가 문자열일 경우 처리
if type(x) == str:
x = x.replace('-', '0') # '-'를 0으로 대체
x = int(x) # 문자열을 정수로 변환
else:
pass # 숫자형 데이터는 그대로 유지
return x
replace('-', '0'): '-' 문자열을 '0'으로 대체하여 숫자형으로 변환 가능하도록 처리합니다.int(x): 변환된 문자열을 정수형 데이터로 변환합니다.pass: 숫자형 데이터는 변경하지 않습니다.apply() 메서드를 사용하여 컬럼 전체에 변환 함수를 적용합니다:
python
코드 복사
# 거래액 컬럼에 str_to_int 함수 적용
result['거래액'] = result['거래액'].apply(str_to_int)
apply(): 데이터프레임의 각 값을 함수에 전달하여 변환합니다.변환이 완료된 데이터를 확인하여 변경이 제대로 이루어졌는지 점검합니다:
python
코드 복사
result.info()
info(): 데이터프레임의 각 컬럼의 데이터 타입과 null 값 여부를 확인합니다.거래액 컬럼은 문자열(str)에서 정수(int)로 변환됩니다.이 과정은 데이터 타입 문제를 해결하여: