Data Wrangling

Koo·2023년 8월 30일
post-thumbnail

Data Wrangling

데이터 랭글링(Data Wrangling, Data Munging)은 데이터 탐색, 변환, 검증, 그리고 분석 가능하도록 데이터를 신뢰성 있고 의미있게 만드는 작업

변환

  • 데이터 구조화
    • 데이터는 다양한 데이터 소스로부터 수집됨
    • 데이터 통합
      • Unions - 행을 기준으로 데이터를 합침
      • Joins - 열을 기준으로 데이터를 합침
  • 데이터 정규화
    • 사용하지 않는 데이터를 삭제
    • 중복과 불일치를 감소
  • 데이터 반정규화
    • 여러 개의 테이블을 하나의 테이블로 만들어, 쿼리 성능을 높임
  • 데이터 클리닝
    • 신뢰할 수 있고 정확한 분석을 위해 데이터 불규칙성을 수정

검사

  • 이슈와 에러를 탐색
  • 규칙과 규제에 맞게 데이터 검증 수행
  • 소스 데이터를 검사하기 위해 데이터 프로파일링 수행
    • 데이터 프로파일링은 데이터의 구조, 내용, 관계를 확인할 수 있게 도와줌
  • 통계적 방법을 이용해 데이터 시각화
    • 이상치 탐지를 할 수 있음

클리닝

  • 사용 사례 및 문제 유형에 따라 클리닝 방법이 달라짐
  • 누락값 처리
    • 누락값을 포함하고 있는 데이터를 필터링
    • 원래 누락된 값인지를 확인
    • 통계치에 기반하여 누락된 값을 처리할 수 있음
  • 중복값 처리
    • 중복값은 제거되어야 됨
  • 데이터 분석에 무관한 값 처리
  • 데이터 타입 변환
    • 데이터에 맞게 데이터 타입을 변환해주어야 함
  • syntax error
    • 띄어쓰기나 필요없는 공백, 오타 등을 수정
  • 이상치 처리

Data Wrangling 처리 툴

  • Excel Power Query / SpreadSheets

  • OpenRefine

  • 구글 DataPrep

  • Watson Studio Refinery

  • Trifacta Wrangler

  • Python

  • R

  • ...

  • SpreadSheets

    • 문제를 식별하고 데이터를 정리하고 변환하는 데 도움이 되는 많은 기능과 내장된 공식 제공
      - Power Query - 다른 소스로부터 데이터를 임포트할 수 있게 해주거나 데이터 클리닝, 변환 등을 위해 사용되는 에드인
  • OpenRefine

    • TSV, CSV, XLS, XML, JSON 등 다양한 데이터를 임포트할 수 있음
    • 데이터 클리닝, 변환
    • 웹 서비스 및 외부 데이터로 확장 가능
    • 쉬운 난이도
    • GUI 제공
  • Google DataPrep

    • 클라우드 기반 데이터 서비스
    • structured, unstrucutred data를 모두 시각화 가능
    • 쉬운 난이도
    • 단계별 추천 제안 제공
    • 스키마, 데이터 타입, 이상치 등을 자동으로 찾아줌
  • Watson Studio Refinery

    • IBM Watson Studio에서 사용 가능
    • 빌트인 기능을 통해 데이터를 클리닝, 변환이 가능
    • 대용량의 소스 데이터를 처리 가능
    • 다양한 데이터 소스를 탐색할 수 있는 유연성 제공
    • 데이터 타입과 분류를 자동으로 탐지
    • 적용 가능한 데이터 거버넌스를 자동으로 적용
  • Trifacta Wrangler

    • 대화형 클라우드 기반 서비스
    • 데이터 클리닝과 변환이 가능
    • 복잡한 실제 데이터를 수집해 데이터 테이블로 변환
    • 테이블을 excel, tableau, R 등으로 내보낼 수 있음
    • 협업에 유리
profile
스터디를 해보자

0개의 댓글