13. 데이터 재구조화 6 - lambda

Ryan·2025년 1월 9일

SQL/Python 분석

목록 보기
17/94

13. 데이터 재구조화 6 - Lambda

문자열 데이터 변환 및 정리

데이터 컬럼에 포함된 특정 문자열을 제거하거나, 형식을 변환하여 분석에 적합한 형태로 만드는 작업은 전처리 과정에서 매우 중요합니다. Python의 lambda 함수apply() 메서드를 활용하여 간결하게 처리할 수 있습니다.


1. 문제 상황

날짜 컬럼에 포함된 문자열 " p)"는 통계청에서 제공하는 데이터의 추정치를 나타냅니다. 또한, 날짜 형식이 "."로 구분되어 있어, 다른 형식(예: "/")으로 변환이 필요합니다.


2. 문자열 제거: 특정 값 삭제

remove() 함수를 사용하여 문자열에서 불필요한 값을 제거합니다:

python
코드 복사
# " p)" 문자열 제거 함수
def remove(x):
    # " p)"를 제거
    x = x.replace(' p)', "")
    return x

# 날짜 컬럼에 함수 적용
result['날짜'] = result['날짜'].apply(remove)
  • replace(' p)', ''): " p)"를 빈 문자열("")로 대체합니다.
  • apply(remove): 컬럼의 각 값을 remove 함수에 전달하여 변환합니다.

3. 문자열 변환: 형식 변경

lambda 함수를 사용하여 날짜 형식을 "."에서 "/"로 변환합니다:

python
코드 복사
# "."를 "/"로 대체
result['날짜'] = result['날짜'].apply(lambda x: x.replace('.', '/'))
  • lambda x: x.replace('.', '/'): 컬럼의 각 값에서 "."를 "/"로 대체하는 익명 함수입니다.
  • lambda는 간단한 변환 작업에 매우 유용합니다.

4. 결과 저장

전처리가 완료된 데이터를 CSV 파일로 저장하여 이후 분석에서 활용할 수 있습니다:

python
코드 복사
# CSV 파일로 저장
result.to_csv('preprocessing.csv', encoding='cp949', index=False)
  • to_csv(): 데이터프레임을 CSV 파일로 저장합니다.
  • encoding='cp949': 한국어 데이터가 포함된 파일의 인코딩 설정.
  • index=False: 데이터프레임의 인덱스를 파일에 포함하지 않음.

5. 결과 확인

데이터 변환 전후 비교:

  • 변환 전:날짜2023.01 p)2023.02 p)
  • 변환 후:날짜2023/012023/02

요약

  1. 특정 문자열 제거: " p)"와 같은 불필요한 정보를 제거하여 데이터 정리.
  2. 형식 변환: 날짜 형식을 "."에서 "/"로 변경하여 일관성 확보.
  3. 파일 저장: 전처리된 데이터를 CSV 파일로 저장하여 재활용 가능.

0개의 댓글