MLOps의 데이터

Taixi·2025년 3월 3일
0

MLOps

목록 보기
1/4

데이터

  • 정형 데이터 : 표의 형태로 고정된 스키마를 가지고 있음
    • SQL 쿼리 사용
    • 고정된 스키마
  • 비정형 데이터 : 구조가 없는 데이터 및 이미지, 오디오
    • 구조가 없음
    • 고도의 전처리가 필요
  • 반정형 데이터 : 일부만 구조화된 정보(마크업, 태그)
    • 일부 구조화된 정보
    • 데이터 파싱 필요
    • 유연성
  • 실시간 데이터
    • 금융거래
    • ioT 센서 데이터
    • 스트리밍 데이터

데이터 저장소

  • Database : DBMS
  • NoSQL Database : 정형데이터 이외에 반정형 및 비정형 데이터도 관리 MongoDB
  • Date Warehouse
  • Data Lake

Data Sampling

  • 큰데이터에서 작은 데이터 추출 프로세스

종류

  • Random : 무작위로
  • Stratified : 계층별로
  • cluster : 그룹별로
  • Weight : 가중치를 기반으로
  • Importance : 확률 분포

Labeling

  • lmage : 객체인식, 세그멘테이션
  • text : 텍스트 분류, 감정분석
  • audio : 음성인식

class Imbalance

  • 클래스 간의 데이터 불균형을 나타내는 개념
  • 모델편향, 비용고려, 평가지표의 왜곡

기법

  • Resampling
    • oversampling
      • SMOTE : 고정비율에 따라 랜덤 학습
      • ADASYN : 가중치를 고려하여 동적으로 합성
    • UnderSampling
      • Random
      • Tomek Links
      • ENN
    • Combined sampling
      • SMOTEENN
profile
개발자를 위한 첫시작

0개의 댓글

관련 채용 정보