빅데이터분석기사 필기 암기노트
모르는 전제로 처음부터 설명. 읽으면서 머릿속에 넣기.
1과목: 빅데이터 분석 기획
1-1. 빅데이터의 이해
DIKW 피라미드 (매회 출제)
아래에서 위로 올라갈수록 가치가 높아짐:
- Data (데이터): 가공 안 된 날것의 사실. 예) "35℃"
- Information (정보): 데이터를 가공해서 의미를 부여한 것. 예) "오늘 서울 기온 35℃"
- Knowledge (지식): 정보를 분석해서 패턴/규칙을 발견한 것. 예) "8월 서울은 보통 30℃ 이상이다"
- Wisdom (지혜): 지식을 바탕으로 미래를 예측하고 의사결정하는 것. 예) "8월에는 냉방 수요가 급증하니 에어컨 재고를 늘려야 한다"
시험 포인트: "객관적 사실 → 가공된 의미 → 패턴/규칙 → 의사결정" 순서
빅데이터의 특성 (3V → 5V → 7V)
- Volume (규모): 데이터의 양이 엄청나게 많다
- Velocity (속도): 데이터가 실시간으로 빠르게 생성된다
- Variety (다양성): 텍스트, 이미지, 로그 등 다양한 형태
- Veracity (정확성): 데이터의 품질/신뢰성
- Value (가치): 데이터에서 실제 비즈니스 가치를 뽑아낼 수 있는가
- Visualization (시각화), Variability (가변성) 까지 확장되기도 함
시험 포인트: 3V(Volume, Velocity, Variety)가 기본. 나머지는 확장 개념.
데이터의 유형
- 정형 데이터: RDB에 저장되는 형태. 행과 열이 있음. (엑셀, DB 테이블)
- 반정형 데이터: 고정 스키마는 없지만 구조는 있음. (JSON, XML, HTML, 로그)
- 비정형 데이터: 구조가 없음. (이미지, 동영상, 텍스트, SNS 글)
시험 포인트: JSON/XML이 "반정형"이라는 것 자주 출제
데이터베이스 유형
- RDBMS: 관계형 DB. 행/열 구조, SQL 사용 (MySQL, PostgreSQL, Oracle)
- NoSQL: Not Only SQL. 비정형/반정형 데이터 저장에 적합
- Key-Value: Redis, DynamoDB (단순 키-값 쌍)
- Document: MongoDB (JSON 형태 문서 저장)
- Column-Family: HBase, Cassandra (열 기반 저장)
- Graph: Neo4j (노드-관계 구조, SNS 친구관계 분석 등)
빅데이터 기술
- Hadoop: 대용량 데이터 분산 저장/처리 프레임워크
- HDFS: 분산 파일 시스템 (데이터 저장)
- MapReduce: 분산 처리 (Map=분할처리, Reduce=합산)
- YARN: 리소스 관리
- Spark: Hadoop보다 빠름. 메모리 기반 처리(In-Memory). 실시간 처리 가능
- Kafka: 실시간 스트리밍 데이터 처리 플랫폼
- Hive: Hadoop 위에서 SQL처럼 쿼리 날릴 수 있게 해주는 도구
1-2. 데이터 분석 방법론 (매회 2~3문제)
KDD (Knowledge Discovery in Databases)
데이터에서 지식을 발견하는 과정. 5단계:
1. Selection (선택): 분석 대상 데이터 선택
2. Preprocessing (전처리): 노이즈/결측치 제거
3. Transformation (변환): 분석 가능한 형태로 변환
4. Data Mining (데이터 마이닝): 패턴/규칙 발견
5. Interpretation (해석): 결과 해석 및 평가
암기법: "선전변마해" (선택-전처리-변환-마이닝-해석)
CRISP-DM (Cross Industry Standard Process for Data Mining)
산업 표준 데이터 마이닝 프로세스. 6단계:
1. Business Understanding (업무 이해): 비즈니스 목표 파악
2. Data Understanding (데이터 이해): 데이터 수집/탐색
3. Data Preparation (데이터 준비): 전처리, 변환
4. Modeling (모델링): 모델 구축
5. Evaluation (평가): 모델 성능 평가
6. Deployment (배포): 실제 업무에 적용
암기법: "업데준 모평배" (업무이해-데이터이해-준비-모델링-평가-배포)
시험 포인트: 각 단계 간 피드백이 가능한 반복적/순환적 구조라는 점
SEMMA (SAS에서 만든 방법론)
- Sample (표본추출)
- Explore (탐색)
- Modify (수정)
- Model (모델링)
- Assess (평가)
암기법: 그냥 "SEMMA" 자체가 암기법
시험 포인트: KDD vs CRISP-DM vs SEMMA 비교 문제 자주 나옴
3개 방법론 비교
| 구분 | KDD | CRISP-DM | SEMMA |
|---|
| 만든 곳 | 학계 | 유럽 컨소시엄 | SAS |
| 단계 수 | 5 | 6 | 5 |
| 특징 | 학술적 | 산업 표준, 순환적 | SAS 도구 중심 |
| 시작점 | 데이터 선택 | 업무 이해 | 표본 추출 |
1-3. 분석 과제 도출
하향식 접근법 (Top-Down)
- 문제가 이미 정의되어 있고, 해결책을 찾아가는 방식
- "매출이 떨어지고 있다" → 원인 분석
- Problem → Solution 방향
상향식 접근법 (Bottom-Up)
- 데이터를 먼저 보고, 거기서 인사이트를 발견하는 방식
- 데이터 탐색 → "어? 이런 패턴이 있네?" → 과제 도출
- Data → Insight 방향
분석 과제 발굴 도구
- BSC (Balanced Scorecard): 재무/고객/내부프로세스/학습성장 4개 관점으로 성과를 측정하는 경영도구
- CSF (Critical Success Factor): 핵심 성공 요인. 사업 성공에 꼭 필요한 요소
- KPI (Key Performance Indicator): 핵심 성과 지표. 목표 달성 정도를 수치로 측정
- 관계: BSC의 전략목표 → CSF 도출 → KPI로 측정
분석 과제 우선순위 평가 매트릭스
2x2 매트릭스로 과제를 분류:
- X축: 시급성 (높음/낮음)
- Y축: 전략적 중요도 (높음/낮음)
- 전략적 중요도 높고 + 시급성 높으면 → 바로 착수
1-4. 분석 마스터플랜
분석 거버넌스
분석을 체계적으로 관리하기 위한 조직/프로세스/시스템의 체계
- 분석 준비도: 조직이 분석을 수행할 준비가 되었는가 평가
- 분석 성숙도 모델: 도입 → 활용 → 확산 → 최적화 단계
분석 조직 유형
- 집중형: 전사 분석 조직이 한 곳에 모여있음. 전문성↑ 현업이해↓
- 분산형: 각 사업부에 분석 인력 배치. 현업이해↑ 전문성↓
- 혼합형: 집중형 + 분산형 장점 결합. CoE(Center of Excellence) 형태
1-5. 개인정보보호 / 데이터 관련 법률 (매회 1~2문제)
개인정보의 종류
- 개인정보: 살아있는 개인을 식별할 수 있는 정보 (이름, 주민번호 등)
- 가명정보: 추가 정보 없이는 개인을 식별할 수 없도록 처리한 정보 (통계/연구에 활용 가능)
- 익명정보: 더 이상 개인을 식별할 수 없는 정보 (개인정보보호법 적용 안 됨)
비식별 처리 기법
- 가명처리: 이름을 "홍OO"으로 바꾸는 것
- 총계처리: 개별 값 대신 합계/평균으로 제공
- 데이터 삭제: 식별 가능한 값 자체를 제거
- 데이터 범주화: "25세" → "20대"로 범주화
- 데이터 마스킹: "010-1234-5678" → "010-****-5678"
데이터 3법
- 개인정보보호법: 개인정보 수집/이용/제공 규정 (일반법)
- 정보통신망법: 온라인에서의 개인정보보호 (특별법)
- 신용정보법: 금융/신용 관련 개인정보 (특별법)
시험 포인트: 가명정보는 "통계/연구/공익적 기록보존" 목적으로만 사용 가능. 동의 없이 사용 가능하지만 제3자 제공 시 별도 동의 필요.
2과목: 빅데이터 탐색
2-1. 데이터 전처리
결측치(Missing Value) 처리
결측치 = 값이 비어있는 데이터 (NaN, NULL)
처리 방법:
- 삭제: 결측치가 있는 행/열 제거 (데이터가 충분할 때)
- 평균 대체: 해당 변수의 평균값으로 채움
- 중앙값 대체: 이상치에 덜 민감 (평균보다 안전)
- 최빈값 대체: 범주형 데이터에 적합
- 보간법: 앞뒤 값을 이용해 추정 (시계열에 적합)
- 예측 모델: 회귀분석 등으로 결측치를 예측해서 채움
이상치(Outlier) 처리
이상치 = 다른 데이터와 동떨어진 극단값
탐지 방법:
- IQR 방법: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과인 값
- Q1 = 25% 지점, Q3 = 75% 지점
- IQR = Q3 - Q1 (사분위 범위)
- Z-score: 평균에서 표준편차 몇 배 떨어졌는지. 보통 |Z| > 3이면 이상치
- 박스플롯: 시각적으로 이상치 확인
처리 방법:
- 삭제, 대체(평균/중앙값), 변환(로그변환), 별도 분석
데이터 변환
- 정규화 (Min-Max Normalization): 값을 0~1 사이로 변환
- X_norm = (X - min) / (max - min)
- 표준화 (Standardization, Z-score): 평균=0, 표준편차=1로 변환
- 로그 변환: 오른쪽으로 치우친(right-skewed) 데이터를 정규분포에 가깝게 만듦
- 원-핫 인코딩: 범주형 변수를 0/1 이진 변수로 변환 (예: 색상 → 빨강=1,0,0 / 파랑=0,1,0)
- 레이블 인코딩: 범주형 변수를 숫자로 변환 (예: 빨강=0, 파랑=1, 녹색=2)
시험 포인트: 정규화 vs 표준화 차이. 정규화는 범위 고정(0~1), 표준화는 분포 변환.
2-2. 기초 통계
중심 경향 측도 (데이터의 대표값)
- 평균 (Mean): 모든 값의 합 / 개수. 이상치에 민감
- 중앙값 (Median): 정렬했을 때 가운데 값. 이상치에 강건
- 최빈값 (Mode): 가장 많이 나타나는 값. 범주형에 유용
산포도 (데이터가 얼마나 퍼져있는가)
- 분산 (Variance): 각 값이 평균에서 얼마나 떨어졌는지의 제곱 평균
- 표준편차 (Standard Deviation): 분산의 제곱근. 원래 단위와 같아서 해석이 쉬움
- 범위 (Range): 최대값 - 최소값
- 사분위 범위 (IQR): Q3 - Q1
분포의 형태
- 왜도 (Skewness): 분포가 얼마나 비대칭인가
- 왜도 = 0 → 대칭 (정규분포)
- 왜도 > 0 → 오른쪽 꼬리가 긴 분포 (양의 왜도) → 평균 > 중앙값
- 왜도 < 0 → 왼쪽 꼬리가 긴 분포 (음의 왜도) → 평균 < 중앙값
- 첨도 (Kurtosis): 분포가 얼마나 뾰족한가
- 첨도 = 3 → 정규분포 (기준)
- 첨도 > 3 → 뾰족 (급첨, Leptokurtic)
- 첨도 < 3 → 완만 (완첨, Platykurtic)
시험 포인트: "양의 왜도 → 오른쪽 꼬리 → 평균 > 중앙값" 무조건 암기
상관분석
- 피어슨 상관계수 (r): -1 ~ +1 사이. 두 변수의 선형 관계 강도
- r = +1: 완벽한 양의 상관 (하나 올라가면 다른 것도 올라감)
- r = 0: 선형 관계 없음
- r = -1: 완벽한 음의 상관
- |r| > 0.7 이면 강한 상관
- 스피어만 상관계수: 순위(rank) 기반. 비선형에도 사용 가능
- 주의: 상관관계 ≠ 인과관계! (아이스크림 판매량↑ ↔ 익사사고↑ → 인과 아님, 여름이라는 혼동변수)
2-3. 확률분포 (매회 3~4문제, 핵심)
이산형 확률분포 (셀 수 있는 값)
이항분포 (Binomial)
- n번 시행, 성공확률 p, 성공 횟수의 분포
- 예) 동전 10번 던져서 앞면 나오는 횟수
- 평균 = np, 분산 = np(1-p)
포아송분포 (Poisson)
- 일정 시간/공간에서 사건이 발생하는 횟수의 분포
- 예) 1시간 동안 콜센터에 걸려오는 전화 수
- 평균 = λ, 분산 = λ (평균과 분산이 같음!)
베르누이분포
- 이항분포에서 n=1인 경우. 성공/실패 딱 1번.
기하분포
연속형 확률분포 (아무 값이나 가능)
정규분포 (Normal, Gaussian)
- 가장 중요! 종 모양, 좌우 대칭
- 평균(μ)과 표준편차(σ)로 결정됨
- 68-95-99.7 규칙: μ±1σ에 68%, μ±2σ에 95%, μ±3σ에 99.7%
- 표준정규분포: μ=0, σ=1로 변환한 정규분포
t-분포 (Student's t)
- 정규분포와 비슷하지만 표본이 작을 때 사용 (보통 n < 30)
- 자유도가 커지면 정규분포에 가까워짐
- 정규분포보다 꼬리가 두꺼움 (극단값 가능성 높음)
카이제곱분포 (χ²)
- 표준정규분포를 따르는 변수들의 제곱합
- 적합도 검정: 관측값이 기대값과 맞는지
- 독립성 검정: 두 범주형 변수가 독립인지
- 항상 양수, 오른쪽으로 치우침
F-분포
- 두 카이제곱분포의 비율
- 분산분석(ANOVA)에서 사용
- 두 집단의 분산이 같은지 비교
초중요 암기:
- 포아송: 평균 = 분산 = λ
- 정규분포: 68-95-99.7
- t분포: 소표본, 자유도↑ → 정규분포
- 카이제곱: 적합도/독립성 검정
- F분포: 분산분석(ANOVA)
2-4. 표본추출 방법
확률적 표본추출
- 단순무작위추출: 모든 원소가 동일 확률로 선택. 가장 기본
- 체계적 추출 (계통추출): 첫 번째를 랜덤 선택 후, k번째마다 추출 (예: 3번째, 13번째, 23번째...)
- 층화추출: 모집단을 동질적인 그룹(층)으로 나눈 뒤, 각 층에서 추출 (예: 남/여 나눠서 각각 추출)
- 군집추출 (집락추출): 모집단을 이질적인 그룹(군집)으로 나눈 뒤, 일부 군집을 통째로 선택
시험 포인트: 층화 vs 군집 차이
- 층화: 층 내부 동질, 층 간 이질 → 모든 층에서 추출
- 군집: 군집 내부 이질, 군집 간 동질 → 일부 군집만 선택
비확률적 표본추출
- 편의추출: 접근 쉬운 대상 선택 (길거리 설문)
- 판단추출: 전문가 판단으로 선택
- 할당추출: 모집단 비율에 맞게 할당 (남:여 = 6:4 → 60명:40명)
- 눈덩이추출: 한 응답자가 다른 응답자를 소개 (희귀집단 조사에 유용)
2-5. 가설검정 기초
가설의 종류
- 귀무가설 (H₀): "차이가 없다", "효과가 없다" (현재 상태 유지)
- 대립가설 (H₁): "차이가 있다", "효과가 있다" (연구자가 증명하고 싶은 것)
오류의 종류
- 1종 오류 (α, Type I): 귀무가설이 참인데 기각함 → "없는 효과를 있다고 판단"
- 2종 오류 (β, Type II): 귀무가설이 거짓인데 채택함 → "있는 효과를 없다고 판단"
- 검정력 (Power): 1 - β. 실제 효과가 있을 때 이를 발견할 확률
암기법:
- 1종 오류 = 무고한 사람을 유죄 판결 (False Positive)
- 2종 오류 = 범인을 무죄 판결 (False Negative)
p-value (유의확률)
- 귀무가설이 참이라는 가정 하에, 관측된 결과(또는 더 극단적인 결과)가 나올 확률
- p-value < α (유의수준, 보통 0.05) → 귀무가설 기각 → 통계적으로 유의미
- p-value ≥ α → 귀무가설 채택 (기각하지 못함)
주요 검정 방법
| 검정 | 용도 | 예시 |
|---|
| t-검정 | 두 집단의 평균 비교 | A반 vs B반 성적 차이 |
| ANOVA (F-검정) | 3개 이상 집단의 평균 비교 | A,B,C반 성적 차이 |
| 카이제곱 검정 | 범주형 변수 간 독립성/적합도 | 성별과 구매 여부 관계 |
| 상관분석 | 두 연속형 변수의 관계 강도 | 키와 몸무게 관계 |
2-6. 데이터 시각화
시각화 유형
- 히스토그램: 연속형 변수의 분포. 막대가 붙어있음
- 막대그래프 (Bar Chart): 범주형 변수의 빈도/크기. 막대가 떨어져있음
- 박스플롯 (Box Plot): Q1, 중앙값, Q3, 이상치를 한눈에. 분포 비교에 좋음
- 산점도 (Scatter Plot): 두 연속형 변수의 관계. 상관관계 시각화
- 히트맵 (Heatmap): 행렬 형태로 값의 크기를 색상으로 표현. 상관행렬에 자주 사용
- 파이차트: 전체 대비 비율. (사실 잘 안 씀, 막대가 더 정확)
- 라인차트: 시계열 데이터의 추이
시험 포인트: 히스토그램 vs 막대그래프 차이 (연속형 vs 범주형, 붙어있음 vs 떨어져있음)
3과목: 빅데이터 모델링
3-1. 분석 모형의 분류
지도학습 (Supervised Learning)
- 정답(레이블)이 있는 데이터로 학습
- 분류 (Classification): 범주형 예측 (스팸/정상, 합격/불합격)
- 회귀 (Regression): 연속형 예측 (집값, 매출액)
비지도학습 (Unsupervised Learning)
- 정답 없이 데이터의 패턴/구조를 발견
- 군집분석 (Clustering): 비슷한 데이터끼리 그룹화
- 차원축소: 변수 수를 줄이면서 정보는 최대한 보존 (PCA)
- 연관규칙: 함께 구매되는 상품 패턴 발견 (장바구니 분석)
강화학습 (Reinforcement Learning)
- 환경과 상호작용하며 보상을 최대화하는 행동을 학습
- 예) 알파고, 로봇 제어
3-2. 회귀분석
선형회귀 (Linear Regression)
- Y = β₀ + β₁X₁ + β₂X₂ + ... + ε
- 연속형 타깃 변수를 예측
- 단순선형회귀: 독립변수 1개
- 다중선형회귀: 독립변수 2개 이상
회귀분석 주요 개념
- R² (결정계수): 모델이 데이터를 얼마나 잘 설명하는지 (0~1, 1에 가까울수록 좋음)
- 수정된 R² (Adjusted R²): 변수 수 증가에 따른 R² 부풀림을 보정
- 잔차 (Residual): 실제값 - 예측값
- 다중공선성: 독립변수들끼리 높은 상관관계가 있는 문제
- VIF (분산팽창인수): 10 이상이면 다중공선성 의심
- 해결법: 변수 제거, PCA, 릿지/라쏘 회귀
로지스틱 회귀 (Logistic Regression)
- 분류 문제에 사용 (이름에 회귀가 들어가지만 분류 모델!)
- 결과를 0~1 사이의 확률로 출력 (시그모이드 함수 사용)
- 이진 분류: 확률 > 0.5 → 1, 아니면 → 0
시험 포인트: 선형회귀 = 연속형 예측 (회귀), 로지스틱회귀 = 범주형 예측 (분류)
3-3. 분류 알고리즘 (가장 많이 출제)
의사결정나무 (Decision Tree)
- 트리 형태로 조건을 분기하면서 분류/예측
- 장점: 해석이 쉬움, 시각화 가능, 전처리 적게 필요
- 단점: 과적합 위험, 불안정 (데이터 조금 바뀌면 트리 크게 변함)
- 분할 기준:
- 분류: 지니 지수 (Gini Index), 엔트로피 (Entropy/Information Gain)
- 회귀: 분산 감소
- 가지치기 (Pruning): 과적합 방지를 위해 트리를 잘라냄
랜덤포레스트 (Random Forest)
- 여러 개의 의사결정나무를 만들어서 다수결로 결정 (배깅 앙상블)
- Bagging + 변수 랜덤 선택
- 장점: 과적합에 강함, 성능 좋음, 변수 중요도 파악 가능
- 단점: 해석 어려움 (블랙박스)
SVM (Support Vector Machine)
- 두 클래스를 가장 잘 구분하는 초평면(결정경계)을 찾음
- 서포트 벡터: 결정경계에 가장 가까운 데이터 포인트
- 마진: 서포트벡터와 결정경계 사이의 거리. 마진을 최대화
- 커널 트릭: 비선형 데이터를 고차원으로 변환해서 선형 분리
- 선형, 다항식, RBF(가우시안), 시그모이드 커널
- 장점: 고차원에서 성능 좋음
- 단점: 대용량 데이터에 느림, 해석 어려움
KNN (K-Nearest Neighbors)
- 새 데이터와 가장 가까운 K개 이웃의 다수결로 분류
- K가 작으면: 과적합 위험, 노이즈에 민감
- K가 크면: 과소적합, 결정 경계가 단순해짐
- 거리 척도: 유클리디안, 맨해튼, 민코프스키
- 장점: 단순, 학습 불필요 (게으른 학습, Lazy Learning)
- 단점: 계산량 많음, 고차원에서 성능 저하 (차원의 저주)
나이브 베이즈 (Naive Bayes)
- 베이즈 정리 기반. 모든 특성(변수)이 서로 독립이라고 가정
- P(클래스|특성) ∝ P(특성|클래스) × P(클래스)
- 장점: 빠름, 적은 데이터에도 잘 작동, 텍스트 분류에 강함 (스팸필터)
- 단점: 독립 가정이 현실에서 잘 안 맞음
XGBoost / LightGBM / CatBoost
- 부스팅 계열 앙상블 모델. 약한 모델을 순차적으로 결합
- XGBoost: 가장 널리 사용. 정규화 포함, 병렬처리 가능
- LightGBM: 더 빠름. 대용량에 적합. Leaf-wise 분할
- CatBoost: 범주형 변수 자동 처리
3-4. 앙상블 (Ensemble) 방법
배깅 (Bagging, Bootstrap Aggregating)
- 데이터를 복원추출해서 여러 모델을 만들고 결합
- 분류: 다수결, 회귀: 평균
- 분산 감소 효과
- 대표: 랜덤포레스트
부스팅 (Boosting)
- 이전 모델이 틀린 데이터에 가중치를 줘서 다음 모델이 집중 학습
- 순차적으로 모델을 만듦
- 편향 감소 효과
- 대표: AdaBoost, GBM, XGBoost, LightGBM
스태킹 (Stacking)
- 여러 모델의 예측 결과를 새로운 모델의 입력으로 사용
- 1단계: 여러 기본 모델로 예측 → 2단계: 메타 모델이 최종 예측
초중요 비교:
- 배깅: 병렬, 분산↓, 랜덤포레스트
- 부스팅: 순차, 편향↓, XGBoost
3-5. 비지도학습
K-Means 군집분석
- K개의 중심점을 기준으로 가장 가까운 데이터를 묶음
- 과정: 중심점 초기화 → 할당 → 중심점 업데이트 → 반복
- K를 미리 정해야 함 (엘보우 방법으로 최적 K 결정)
- 장점: 간단, 빠름
- 단점: K를 정해야 함, 구형 군집만 잘 찾음, 이상치에 민감
DBSCAN
- 밀도 기반 군집분석. K를 정할 필요 없음
- eps: 이웃 반경, min_samples: 최소 점 개수
- 장점: 비구형 군집 발견 가능, 이상치 자동 탐지, K 불필요
- 단점: 밀도가 다양한 데이터에 약함
계층적 군집분석
- 병합형 (Agglomerative): 개별 데이터에서 시작 → 점점 합침 (Bottom-Up)
- 분할형 (Divisive): 전체에서 시작 → 점점 나눔 (Top-Down)
- 덴드로그램: 군집 병합 과정을 트리로 시각화
- 적절한 높이에서 잘라서 군집 수 결정
PCA (주성분분석, Principal Component Analysis)
- 차원축소 기법. 고차원 데이터를 저차원으로 변환
- 분산이 가장 큰 방향으로 새로운 축(주성분)을 만듦
- 첫 번째 주성분이 가장 많은 분산을 설명
- 장점: 다중공선성 해결, 시각화, 노이즈 제거
- 단점: 해석이 어려움 (원래 변수의 의미가 사라짐)
연관규칙 분석 (장바구니 분석)
- "A를 사면 B도 산다" 규칙 발견
- 지지도 (Support): 전체 거래 중 A와 B가 동시에 포함된 비율
- 신뢰도 (Confidence): A를 산 사람 중 B도 산 비율
- 향상도 (Lift): 신뢰도 / B의 지지도
- Lift > 1: 양의 연관 (함께 사는 경향)
- Lift = 1: 독립 (관계 없음)
- Lift < 1: 음의 연관 (같이 안 사는 경향)
- Apriori 알고리즘: 최소 지지도를 만족하는 빈발 항목 집합을 찾음
시험 포인트: 지지도/신뢰도/향상도 계산 문제 자주 출제!
3-6. 딥러닝 기초 (개념만)
인공신경망 (ANN)
- 입력층 → 은닉층 → 출력층
- 각 노드는 가중치(weight)와 편향(bias)을 가짐
- 활성화 함수를 통과해서 출력
활성화 함수
- 시그모이드: 0~1 출력. 이진분류 출력층에 사용. 기울기 소실 문제
- ReLU: max(0, x). 은닉층에 가장 많이 사용. 기울기 소실 해결
- Softmax: 다중 클래스 분류의 출력층. 각 클래스 확률합 = 1
- tanh: -1~1 출력. 시그모이드보다 기울기 소실 적음
CNN (Convolutional Neural Network)
- 이미지 처리에 특화
- 합성곱층 → 풀링층 → 완전연결층
- 필터(커널)가 이미지 위를 슬라이딩하면서 특징 추출
RNN (Recurrent Neural Network)
- 시계열/텍스트 등 순차 데이터 처리
- 이전 상태의 출력이 다음 상태의 입력으로 들어감
- 장기 의존성 문제 → LSTM, GRU로 해결
과적합 방지 기법
- 드롭아웃 (Dropout): 학습 시 일부 노드를 랜덤으로 꺼둠
- 조기종료 (Early Stopping): 검증 손실이 더 이상 줄지 않으면 학습 중단
- 정규화 (Regularization): L1(Lasso), L2(Ridge)
- L1: 일부 가중치를 0으로 → 변수 선택 효과
- L2: 가중치를 작게 → 과적합 방지
- 데이터 증강 (Data Augmentation): 학습 데이터를 변형해서 늘림 (이미지 회전/반전 등)
- 교차검증 (Cross Validation): 데이터를 k개로 나눠서 k번 학습/평가
경사하강법 (Gradient Descent)
- 손실함수를 최소화하는 방향으로 가중치를 조금씩 업데이트
- 학습률 (Learning Rate): 한 번에 얼마나 이동할지
- 너무 크면: 발산 (최적점을 지나침)
- 너무 작으면: 학습이 너무 느림
- 종류:
- 배치 경사하강법: 전체 데이터로 한번에 업데이트
- 확률적 경사하강법 (SGD): 데이터 1개씩 업데이트
- 미니배치 경사하강법: 작은 묶음(배치)씩 업데이트 (가장 일반적)
편향-분산 트레이드오프
- 편향 (Bias): 모델이 너무 단순해서 패턴을 못 잡음 → 과소적합
- 분산 (Variance): 모델이 너무 복잡해서 노이즈까지 학습 → 과적합
- 둘 다 낮추긴 어렵고, 적절한 균형점을 찾아야 함
4과목: 빅데이터 결과 해석
4-1. 모델 평가 지표
분류 모델 평가
혼동행렬 (Confusion Matrix):
| | 예측 Positive | 예측 Negative |
|--|--------------|--------------|
| 실제 Positive | TP (참긍정) | FN (거짓부정) |
| 실제 Negative | FP (거짓긍정) | TN (참부정) |
- 정확도 (Accuracy): (TP+TN) / 전체. 전체 중 맞춘 비율
- 정밀도 (Precision): TP / (TP+FP). Positive 예측 중 실제 Positive 비율. "예측의 정확성"
- 재현율 (Recall, Sensitivity, TPR): TP / (TP+FN). 실제 Positive 중 맞춘 비율. "놓치지 않는 능력"
- F1 Score: 2 × (정밀도 × 재현율) / (정밀도 + 재현율). 정밀도와 재현율의 조화평균
- 특이도 (Specificity): TN / (TN+FP). 실제 Negative 중 맞춘 비율
언제 뭘 중시?
- 스팸 필터: 정밀도 중요 (정상 메일을 스팸으로 잘못 분류하면 안 됨)
- 암 진단: 재현율 중요 (암 환자를 놓치면 안 됨)
ROC 커브 / AUC
- ROC 커브: X축=FPR(1-특이도), Y축=TPR(재현율)
- AUC: ROC 곡선 아래 면적. 0.5~1 사이
- AUC = 1.0: 완벽한 분류
- AUC = 0.5: 랜덤 분류 (쓸모없음)
- AUC > 0.8이면 괜찮은 모델
회귀 모델 평가
- MAE (Mean Absolute Error): 절대 오차의 평균. 이상치에 덜 민감
- MSE (Mean Squared Error): 오차 제곱의 평균. 큰 오차에 페널티
- RMSE (Root MSE): MSE의 제곱근. 원래 단위와 같아서 해석 쉬움
- MAPE: 평균 절대 백분율 오차. 퍼센트로 해석 가능
- R² (결정계수): 1에 가까울수록 좋음
4-2. 모델 검증/개선
교차검증 (Cross Validation)
- K-Fold CV: 데이터를 K개로 나누고, 1개를 검증용, 나머지를 학습용. K번 반복
- Stratified K-Fold: 각 폴드에서 클래스 비율을 유지 (불균형 데이터에 적합)
- LOOCV (Leave-One-Out): K = 데이터 개수. 1개만 검증용. 정확하지만 매우 느림
- Hold-out: 단순히 학습/검증/테스트로 나눔 (보통 7:1.5:1.5 또는 8:1:1)
하이퍼파라미터 튜닝
- Grid Search: 가능한 모든 조합을 시도. 정확하지만 느림
- Random Search: 랜덤으로 조합 선택. 효율적
- Bayesian Optimization: 이전 결과를 바탕으로 다음 탐색점 결정. 가장 효율적
피처 엔지니어링
- 피처 선택 (Feature Selection): 중요한 변수만 선택
- Filter: 통계적 기법 (상관계수, 카이제곱 등)
- Wrapper: 변수 조합을 반복 시도 (전진선택, 후진제거, 단계적)
- Embedded: 모델 학습 과정에서 자동 선택 (Lasso, 랜덤포레스트 변수중요도)
- 피처 추출 (Feature Extraction): 기존 변수를 변환해서 새 변수 생성 (PCA)
4-3. 분석 결과 시각화/보고
시각화 원칙
- 에드워드 터프티: "데이터 잉크 비율" 최대화 (불필요한 장식 최소화)
- 적절한 차트 유형 선택이 중요
- 왜곡 금지: 축 조작, 3D 효과로 인한 착시 등
분석 보고서 구성
- 분석 개요 (목적, 배경)
- 분석 방법 (데이터, 모델, 도구)
- 분석 결과 (핵심 발견)
- 결론 및 제언 (비즈니스 시사점)
리프트 차트 / 이익 도표
- 모델의 예측 결과를 확률 높은 순으로 정렬
- 상위 몇 %를 타겟팅했을 때 얼마나 효과적인지 평가
- 리프트 = 모델 반응률 / 전체 반응률
- 리프트 > 1이면 모델이 랜덤보다 나음
자주 출제되는 비교 정리
분류 vs 회귀
| 구분 | 분류 | 회귀 |
|---|
| 타깃 | 범주형 (이산) | 연속형 |
| 예시 | 스팸/정상, 합격/불합격 | 집값, 매출, 온도 |
| 평가지표 | 정확도, F1, AUC | RMSE, MAE, R² |
과적합 vs 과소적합
| 구분 | 과적합 (Overfitting) | 과소적합 (Underfitting) |
|---|
| 원인 | 모델이 너무 복잡 | 모델이 너무 단순 |
| 학습 성능 | 높음 | 낮음 |
| 테스트 성능 | 낮음 | 낮음 |
| 해결 | 정규화, 드롭아웃, 데이터 추가 | 모델 복잡도 증가, 피처 추가 |
배깅 vs 부스팅
| 구분 | 배깅 | 부스팅 |
|---|
| 학습 | 병렬 (독립적) | 순차 (의존적) |
| 줄이는 것 | 분산 | 편향 |
| 과적합 | 상대적으로 안전 | 과적합 가능 |
| 대표 | 랜덤포레스트 | XGBoost, AdaBoost |
L1 vs L2 정규화
| 구분 | L1 (Lasso) | L2 (Ridge) |
|---|
| 페널티 | 가중치 절대값 합 | 가중치 제곱 합 |
| 효과 | 일부 가중치를 0으로 (변수 선택) | 가중치를 작게 (축소) |
| 용도 | 불필요한 변수 제거 | 다중공선성 해결 |
기출 빈출 키워드 모음
아래 용어들은 기출에서 반복적으로 나오는 것들. 뜻만 기억해두면 됨.
- ETL: Extract(추출), Transform(변환), Load(적재). 데이터 이관 프로세스
- EDA (탐색적 데이터 분석): 데이터를 시각화/요약하면서 특성 파악
- 데이터 레이크: 원본 데이터를 그대로 저장하는 대규모 저장소
- 데이터 웨어하우스: 분석용으로 정제/변환된 데이터 저장소
- 데이터 마트: 특정 부서/주제용 소규모 웨어하우스
- OLAP: 다차원 데이터 분석 (드릴다운, 롤업, 슬라이싱, 다이싱)
- OLTP: 실시간 트랜잭션 처리 (일반 서비스 DB)
- 데이터 거버넌스: 데이터 관리 정책/프로세스/조직 체계
- 메타데이터: 데이터에 대한 데이터 (테이블 스키마, 데이터 사전 등)
- 데이터 리니지: 데이터의 출처와 변환 이력 추적
- A/B 테스트: 두 버전을 비교하는 실험 (통제군 vs 실험군)
- 특성 공학 (Feature Engineering): 원본 데이터에서 모델에 유용한 변수를 만들어내는 과정
- 차원의 저주: 차원(변수)이 너무 많으면 데이터가 희박해져서 성능이 떨어지는 현상
- 불균형 데이터: 클래스 비율이 극단적 (예: 사기거래 0.1%). 오버샘플링(SMOTE)/언더샘플링으로 해결
- SMOTE: 소수 클래스의 합성 데이터를 생성하는 오버샘플링 기법