비정제 데이터

sky.dev·2025년 5월 3일

Data&AI-Uni.

목록 보기
32/77
post-thumbnail

비정제 데이터
===> 특정한 구조나 형식으로 정리되어 있지 않은 데이터

비정제 데이터의 예시

  • 텍스트 데이터: 이메일, 문서 (워드, PDF), 소셜 미디어 게시글, 블로그 게시글, 뉴스 기사, 고객 리뷰, 채팅 로그 등
  • 이미지 데이터: 사진, 그림, 스캔 문서, 의료 영상 등
  • 오디오 데이터: 음성 녹음, 음악 파일, 팟캐스트 등
  • 비디오 데이터: 동영상 파일, CCTV 영상, 웹캠 녹화 등

Data Cleaning (데이터 정제)
분석에 앞서 데이터의 품질을 높이는 작업.
결측치 처리, 이상치 제거, 중복 데이터 제거, 데이터 형식 통일 등 불필요하거나 오류가 있는 데이터를 처리하여 분석의 정확성과 신뢰성을 확보.

Feature Engineering (특성 공학)
기존의 데이터를 활용하여 분석 모델에 유용한 새로운 특성(feature)을 만들어내는 과정.

도메인 지식을 바탕으로 변수들을 조합하거나, 새로운 통계량을 계산하거나, 시간 변수에서 요일이나 월 정보를 추출하는 등의 다양한 방법이 사용. 잘 설계된 특성은 모델의 예측 성능을 크게 향상시킬 수 있습니다.

Transformation (변환): 데이터의 분포나 스케일을 조정하는 작업.

예를 들어, 데이터의 범위를 특정 구간으로 맞추는 스케일링(scaling), 데이터의 분포를 정규 분포에 가깝게 만드는 로그 변환(log transformation) 등이 있습니다. 이는 특정 분석 모델이 데이터의 특정 분포나 스케일에 민감하게 반응할 수 있기 때문에 필요한 과정입니다.

0개의 댓글