데이터 컬럼에 포함된 특정 문자열을 제거하거나, 형식을 변환하여 분석에 적합한 형태로 만드는 작업은 전처리 과정에서 매우 중요합니다. Python의 lambda 함수와 apply() 메서드를 활용하여 간결하게 처리할 수 있습니다.
날짜 컬럼에 포함된 문자열 " p)"는 통계청에서 제공하는 데이터의 추정치를 나타냅니다. 또한, 날짜 형식이 "."로 구분되어 있어, 다른 형식(예: "/")으로 변환이 필요합니다.
remove() 함수를 사용하여 문자열에서 불필요한 값을 제거합니다:
python
코드 복사
# " p)" 문자열 제거 함수
def remove(x):
# " p)"를 제거
x = x.replace(' p)', "")
return x
# 날짜 컬럼에 함수 적용
result['날짜'] = result['날짜'].apply(remove)
replace(' p)', ''): " p)"를 빈 문자열("")로 대체합니다.apply(remove): 컬럼의 각 값을 remove 함수에 전달하여 변환합니다.lambda 함수를 사용하여 날짜 형식을 "."에서 "/"로 변환합니다:
python
코드 복사
# "."를 "/"로 대체
result['날짜'] = result['날짜'].apply(lambda x: x.replace('.', '/'))
lambda x: x.replace('.', '/'): 컬럼의 각 값에서 "."를 "/"로 대체하는 익명 함수입니다.전처리가 완료된 데이터를 CSV 파일로 저장하여 이후 분석에서 활용할 수 있습니다:
python
코드 복사
# CSV 파일로 저장
result.to_csv('preprocessing.csv', encoding='cp949', index=False)
to_csv(): 데이터프레임을 CSV 파일로 저장합니다.encoding='cp949': 한국어 데이터가 포함된 파일의 인코딩 설정.index=False: 데이터프레임의 인덱스를 파일에 포함하지 않음.데이터 변환 전후 비교: