[ML] 데이터 수집

·2025년 1월 15일

ML

목록 보기
4/18

실제로 데이터를 수집하려면 개발을 통해 데이터를 적재하고 수집하는 데이터 엔지니어링 역량이 필요. 이 부분은 개발자가 직접 설계하고 저장. 데이터 분석가는 이미 존재하는 데이터를 SQL 혹은 Python 로 통해 추출하고 리포팅 혹은 머신러닝을 통한 예측을 담당.

Data source

  1. Data Source
    • OLTP Database: OnLine Transaction Processing 은 온라인 뱅킹,쇼핑, 주문 입력 등 동시에 발생하는 다수의 트랜잭션(데이터베이스 작업의 단위) 처리 유형
    • Enterprise Applications: 회사 내 데이터 (ex 고객 관계 데이터, 제품 마케팅 세일즈)
    • Third - Party: Google Analytics와 같은 외부소스에서 수집되는 데이터
    • Web/Log: 사용자의 로그데이터
  2. Data Lake: 원시 형태의 다양한 유형의 데이터를 저장
  3. Data Warehouse: 보다 구조화된 형태로 정제된 데이터를 저장
  4. Data Marts: 회사의 금융, 마케팅, 영업 부서와 같이 특정 조직의 목적을 위해 가공된 데이터
  5. BI/Analytics: business Intelligence(BI)는 의사결정에 사용될 데이터를 수집하고 분석하는 프로세스

직접 수집

  • 회사 내 데이터가 존재한다면
    • SQL 혹은 Python 을 통해 데이터 마트를 생성
  • 회사 내 Data가 없다면 → 데이터 수집 필요
    • 방법1: CSV, EXCEL 파일 다운로드
    • 방법2: API를 이용한 데이터 수집
    • 방법3: Data Crawling
profile
To Dare is To Do

0개의 댓글