데이터
- 정형 데이터 : 표의 형태로 고정된 스키마를 가지고 있음
- 비정형 데이터 : 구조가 없는 데이터 및 이미지, 오디오
- 반정형 데이터 : 일부만 구조화된 정보(마크업, 태그)
- 실시간 데이터
데이터 저장소
- Database : DBMS
- NoSQL Database : 정형데이터 이외에 반정형 및 비정형 데이터도 관리 MongoDB
- Date Warehouse
- Data Lake
Data Sampling
종류
- Random : 무작위로
- Stratified : 계층별로
- cluster : 그룹별로
- Weight : 가중치를 기반으로
- Importance : 확률 분포
Labeling
- lmage : 객체인식, 세그멘테이션
- text : 텍스트 분류, 감정분석
- audio : 음성인식
class Imbalance
- 클래스 간의 데이터 불균형을 나타내는 개념
- 모델편향, 비용고려, 평가지표의 왜곡
기법
- Resampling
- oversampling
- SMOTE : 고정비율에 따라 랜덤 학습
- ADASYN : 가중치를 고려하여 동적으로 합성
- UnderSampling
- Combined sampling