데이터 탐색과 수집 기법

Yuno·2025년 3월 18일

데이터 사이언스

목록 보기
5/25

1️⃣ ETT 개념과 데이터 웨어하우스

✨ ETT 란?

ETT 는 Extraction(추출), Transformation(변환), Transprotation(전송) 의 약자로, 데이터를 수집, 정제, 변환하여 최종 목적지(DB)에 저장하는 프로세스

단계설명
추출 (Extraction)원본 데이터에서 유용한 데이터를 추출
변환 (Transformation)데이터를 정제 및 변환하여 일관성 유지
전송 (Transprotation)정제된 데이터를 타깃 데이터베이스로 전송

✨ 데이터 웨어하우스 (DW, Data Warehouse)

  • 각 조직 및 시스템의 데이터를 일원화하여 관리하는 대형 데이터베이스
  • 신뢰할 수 있는 단일 데이터 버전을 제공
  • 기업의 의사결정에 활용되는 중요한 요소

💡 데이터 웨어하우스의 주요 특징

  • 주제 지향적 (특정 목적의 데이터 저장)
  • 통합적 (여러 시스템에서 데이터 통합)
  • 시계열적 (시간 흐름에 따른 데이터 저장)
  • 비휘발적 (과거 데이터 유지)

2️⃣ 데이터 마트(Data Mart) 와 데이터 레이크(Data Lake)

✨ 데이터 마트 (DM, Data Mart)

  • 데이터 웨어하우스의 하위 개념으로, 특정 부서/목적을 위한 소규모 데이터 저장소
  • 데이터를 재구성하여 사용자가 쉽게 분석할 수 있도록 지원
  • 부서 단위로 최적화된 데이터 분석 제공

✨ 데이터 레이크(Data Lake)

  • 정제되지 않은(row) 대량의 데이터를 저장하는 저장소
  • 정형/비정형 데이터를 가공 없이 저장하고 필요할 때 변환 가능
  • 기존 DW(데이터 웨어하우스) 보다 더 유연한 데이터 활용 가능

💡 데이터 레이크의 장점

  • 모든 형태의 데이터를 저장 가능
  • 유연한 검색 및 가공 가능
  • 데이터 분석 및 머신러닝 모델링에 활용 가능

3️⃣ 데이터 수집 프로세스 구축

✨ 데이터 수집 시 고려사항

  • 데이터 수집 주기 설정 (실시간, 배치 등)
  • 정확한 데이터 확보 (중복, 결측치 처리)
  • 데이터 제공 정책 확인 (API제한, 접근 권한 등)
  • 활용 가능성 및 비용 고려 (트래픽 비용, 저장 비용 등)

✨ 데이터 수집 방식

수집 방법설명
웹 크롤링(Web Crawling)웹사이트 데이터를 자동으로 가져오는 방법
API 연동(API Integration)제공되는 API를 활용하여 데이터를 수집
DB 연동(DB Synchronization)데이터베이스 간 연동을 통해 데이터 가져오기
로그 및 센서 데이터(Log/Sensor Data)시스템 로그 및 IoT 센서에서 데이터 수집

✨ 데이터 연동 방식

연동 방식설명
소켓(Socket)실시간 통신을 위한 네트워크 기반 연동
스트리밍(Streaming)지속적으로 들어오는 데이터 처리
FTP(File Transfer Protocol)파일 기반 데이터 전송
HTTP APIRESTful API 를 통한 데이터 요청 및 응답

🚀 결론

  • ETT 프로세스를 활용하여 데이터를 체계적으로 수집, 변환, 저장해야 함
  • 데이터 웨어하우스(DW), 데이터 마트(DM), 데이터 레이크(Data Lake) 의 차이를 이해하고 활용
  • 웹 크롤링과 API를 통해 다양한 데이터를 수집 가능
profile
Hello World

0개의 댓글