비지니스 인텔리전스 기초

홍준표·2025년 10월 1일

비지니스 데이터 분석 과업

정의 : 범주화 된 데이터를 예측하는 문제
예 : 신용 양호/불량, 성적 예측

모집단(Population)으로 부터 표본(Sample)을 반드는 과정
데이터 셋의 규모가 커질 수록 계산 비용 및 학습시간 증가
이를 줄이기 위해 샘플링 수행
샘플의 최소치 : Delmaster and Hancock의 연구의 따르면 최소 6 클래수 수 속성수
ex)클래스 수 2, 속성 10개일 경우 최소 120개의 샘플 데이터 필요
통계의 Sampling이 모집단의 분포와 유사한 것을 추구하는 것과 달리, 머신러닝은 모델 수립에 최적화된 Sampling 수행 필요(분류 문제에서 불균형 데이터 셋일 경우 샘플링 주의)
학습 데이터 : 평가데이터 비율은 7:3, 6:4 가 일반적

데이터 모델을 구축하는데 특정 클래스 데이터가 극히 적은 경우, 이러한 데이터를 사용하여 분류 모델을 구축 시, 그 모델은 편향 적일 수있고, 극히 적은 클래스는 예측을 하지 못함
ex) 카드 사기의 데이터는 극히 적으므로, 사기 예측을 잘 못할 수 있음.
높은 빈도의 클래스는 낮은 비중으로 샘플링(Under-sampling)
낮은 빈도의 클래스는 높은 비중으로 샘플링(Over-sampling/Up-Sampling)

박스플롯, 히스토그램 등을 이용

속성별로 최댓값, 최솟값 차이가 클때(스케일링)이 예측/분류에 큰 영향을 미칠 수 있으므로 표준화(정규화)를 적용

학습용 데이터에서 유의미한 데이터 추출(Data mining)과정을 거쳐 모형을 만든다. 이후 평가 데이터를 이용함

구분	모형 예측 0	모형 예측 1
실제 0	A	B
실제 1	C	D