빅데이터 분석기사 글 모음

2JOON·2026년 3월 4일

빅데이터분석기사 필기 암기노트

모르는 전제로 처음부터 설명. 읽으면서 머릿속에 넣기.


1과목: 빅데이터 분석 기획

1-1. 빅데이터의 이해

DIKW 피라미드 (매회 출제)

아래에서 위로 올라갈수록 가치가 높아짐:

  • Data (데이터): 가공 안 된 날것의 사실. 예) "35℃"
  • Information (정보): 데이터를 가공해서 의미를 부여한 것. 예) "오늘 서울 기온 35℃"
  • Knowledge (지식): 정보를 분석해서 패턴/규칙을 발견한 것. 예) "8월 서울은 보통 30℃ 이상이다"
  • Wisdom (지혜): 지식을 바탕으로 미래를 예측하고 의사결정하는 것. 예) "8월에는 냉방 수요가 급증하니 에어컨 재고를 늘려야 한다"

시험 포인트: "객관적 사실 → 가공된 의미 → 패턴/규칙 → 의사결정" 순서

빅데이터의 특성 (3V → 5V → 7V)

  • Volume (규모): 데이터의 양이 엄청나게 많다
  • Velocity (속도): 데이터가 실시간으로 빠르게 생성된다
  • Variety (다양성): 텍스트, 이미지, 로그 등 다양한 형태
  • Veracity (정확성): 데이터의 품질/신뢰성
  • Value (가치): 데이터에서 실제 비즈니스 가치를 뽑아낼 수 있는가
  • Visualization (시각화), Variability (가변성) 까지 확장되기도 함

시험 포인트: 3V(Volume, Velocity, Variety)가 기본. 나머지는 확장 개념.

데이터의 유형

  • 정형 데이터: RDB에 저장되는 형태. 행과 열이 있음. (엑셀, DB 테이블)
  • 반정형 데이터: 고정 스키마는 없지만 구조는 있음. (JSON, XML, HTML, 로그)
  • 비정형 데이터: 구조가 없음. (이미지, 동영상, 텍스트, SNS 글)

시험 포인트: JSON/XML이 "반정형"이라는 것 자주 출제

데이터베이스 유형

  • RDBMS: 관계형 DB. 행/열 구조, SQL 사용 (MySQL, PostgreSQL, Oracle)
  • NoSQL: Not Only SQL. 비정형/반정형 데이터 저장에 적합
    • Key-Value: Redis, DynamoDB (단순 키-값 쌍)
    • Document: MongoDB (JSON 형태 문서 저장)
    • Column-Family: HBase, Cassandra (열 기반 저장)
    • Graph: Neo4j (노드-관계 구조, SNS 친구관계 분석 등)

빅데이터 기술

  • Hadoop: 대용량 데이터 분산 저장/처리 프레임워크
    • HDFS: 분산 파일 시스템 (데이터 저장)
    • MapReduce: 분산 처리 (Map=분할처리, Reduce=합산)
    • YARN: 리소스 관리
  • Spark: Hadoop보다 빠름. 메모리 기반 처리(In-Memory). 실시간 처리 가능
  • Kafka: 실시간 스트리밍 데이터 처리 플랫폼
  • Hive: Hadoop 위에서 SQL처럼 쿼리 날릴 수 있게 해주는 도구

1-2. 데이터 분석 방법론 (매회 2~3문제)

KDD (Knowledge Discovery in Databases)

데이터에서 지식을 발견하는 과정. 5단계:
1. Selection (선택): 분석 대상 데이터 선택
2. Preprocessing (전처리): 노이즈/결측치 제거
3. Transformation (변환): 분석 가능한 형태로 변환
4. Data Mining (데이터 마이닝): 패턴/규칙 발견
5. Interpretation (해석): 결과 해석 및 평가

암기법: "선전변마해" (선택-전처리-변환-마이닝-해석)

CRISP-DM (Cross Industry Standard Process for Data Mining)

산업 표준 데이터 마이닝 프로세스. 6단계:
1. Business Understanding (업무 이해): 비즈니스 목표 파악
2. Data Understanding (데이터 이해): 데이터 수집/탐색
3. Data Preparation (데이터 준비): 전처리, 변환
4. Modeling (모델링): 모델 구축
5. Evaluation (평가): 모델 성능 평가
6. Deployment (배포): 실제 업무에 적용

암기법: "업데준 모평배" (업무이해-데이터이해-준비-모델링-평가-배포)
시험 포인트: 각 단계 간 피드백이 가능한 반복적/순환적 구조라는 점

SEMMA (SAS에서 만든 방법론)

  1. Sample (표본추출)
  2. Explore (탐색)
  3. Modify (수정)
  4. Model (모델링)
  5. Assess (평가)

암기법: 그냥 "SEMMA" 자체가 암기법
시험 포인트: KDD vs CRISP-DM vs SEMMA 비교 문제 자주 나옴

3개 방법론 비교

구분KDDCRISP-DMSEMMA
만든 곳학계유럽 컨소시엄SAS
단계 수565
특징학술적산업 표준, 순환적SAS 도구 중심
시작점데이터 선택업무 이해표본 추출

1-3. 분석 과제 도출

하향식 접근법 (Top-Down)

  • 문제가 이미 정의되어 있고, 해결책을 찾아가는 방식
  • "매출이 떨어지고 있다" → 원인 분석
  • Problem → Solution 방향

상향식 접근법 (Bottom-Up)

  • 데이터를 먼저 보고, 거기서 인사이트를 발견하는 방식
  • 데이터 탐색 → "어? 이런 패턴이 있네?" → 과제 도출
  • Data → Insight 방향

분석 과제 발굴 도구

  • BSC (Balanced Scorecard): 재무/고객/내부프로세스/학습성장 4개 관점으로 성과를 측정하는 경영도구
  • CSF (Critical Success Factor): 핵심 성공 요인. 사업 성공에 꼭 필요한 요소
  • KPI (Key Performance Indicator): 핵심 성과 지표. 목표 달성 정도를 수치로 측정
  • 관계: BSC의 전략목표 → CSF 도출 → KPI로 측정

분석 과제 우선순위 평가 매트릭스

2x2 매트릭스로 과제를 분류:

  • X축: 시급성 (높음/낮음)
  • Y축: 전략적 중요도 (높음/낮음)
  • 전략적 중요도 높고 + 시급성 높으면 → 바로 착수

1-4. 분석 마스터플랜

분석 거버넌스

분석을 체계적으로 관리하기 위한 조직/프로세스/시스템의 체계

  • 분석 준비도: 조직이 분석을 수행할 준비가 되었는가 평가
  • 분석 성숙도 모델: 도입 → 활용 → 확산 → 최적화 단계

분석 조직 유형

  • 집중형: 전사 분석 조직이 한 곳에 모여있음. 전문성↑ 현업이해↓
  • 분산형: 각 사업부에 분석 인력 배치. 현업이해↑ 전문성↓
  • 혼합형: 집중형 + 분산형 장점 결합. CoE(Center of Excellence) 형태

1-5. 개인정보보호 / 데이터 관련 법률 (매회 1~2문제)

개인정보의 종류

  • 개인정보: 살아있는 개인을 식별할 수 있는 정보 (이름, 주민번호 등)
  • 가명정보: 추가 정보 없이는 개인을 식별할 수 없도록 처리한 정보 (통계/연구에 활용 가능)
  • 익명정보: 더 이상 개인을 식별할 수 없는 정보 (개인정보보호법 적용 안 됨)

비식별 처리 기법

  • 가명처리: 이름을 "홍OO"으로 바꾸는 것
  • 총계처리: 개별 값 대신 합계/평균으로 제공
  • 데이터 삭제: 식별 가능한 값 자체를 제거
  • 데이터 범주화: "25세" → "20대"로 범주화
  • 데이터 마스킹: "010-1234-5678" → "010-****-5678"

데이터 3법

  1. 개인정보보호법: 개인정보 수집/이용/제공 규정 (일반법)
  2. 정보통신망법: 온라인에서의 개인정보보호 (특별법)
  3. 신용정보법: 금융/신용 관련 개인정보 (특별법)

시험 포인트: 가명정보는 "통계/연구/공익적 기록보존" 목적으로만 사용 가능. 동의 없이 사용 가능하지만 제3자 제공 시 별도 동의 필요.


2과목: 빅데이터 탐색

2-1. 데이터 전처리

결측치(Missing Value) 처리

결측치 = 값이 비어있는 데이터 (NaN, NULL)

처리 방법:

  • 삭제: 결측치가 있는 행/열 제거 (데이터가 충분할 때)
  • 평균 대체: 해당 변수의 평균값으로 채움
  • 중앙값 대체: 이상치에 덜 민감 (평균보다 안전)
  • 최빈값 대체: 범주형 데이터에 적합
  • 보간법: 앞뒤 값을 이용해 추정 (시계열에 적합)
  • 예측 모델: 회귀분석 등으로 결측치를 예측해서 채움

이상치(Outlier) 처리

이상치 = 다른 데이터와 동떨어진 극단값

탐지 방법:

  • IQR 방법: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과인 값
    • Q1 = 25% 지점, Q3 = 75% 지점
    • IQR = Q3 - Q1 (사분위 범위)
  • Z-score: 평균에서 표준편차 몇 배 떨어졌는지. 보통 |Z| > 3이면 이상치
    • Z = (X - 평균) / 표준편차
  • 박스플롯: 시각적으로 이상치 확인

처리 방법:

  • 삭제, 대체(평균/중앙값), 변환(로그변환), 별도 분석

데이터 변환

  • 정규화 (Min-Max Normalization): 값을 0~1 사이로 변환
    • X_norm = (X - min) / (max - min)
  • 표준화 (Standardization, Z-score): 평균=0, 표준편차=1로 변환
    • X_std = (X - 평균) / 표준편차
  • 로그 변환: 오른쪽으로 치우친(right-skewed) 데이터를 정규분포에 가깝게 만듦
  • 원-핫 인코딩: 범주형 변수를 0/1 이진 변수로 변환 (예: 색상 → 빨강=1,0,0 / 파랑=0,1,0)
  • 레이블 인코딩: 범주형 변수를 숫자로 변환 (예: 빨강=0, 파랑=1, 녹색=2)

시험 포인트: 정규화 vs 표준화 차이. 정규화는 범위 고정(0~1), 표준화는 분포 변환.


2-2. 기초 통계

중심 경향 측도 (데이터의 대표값)

  • 평균 (Mean): 모든 값의 합 / 개수. 이상치에 민감
  • 중앙값 (Median): 정렬했을 때 가운데 값. 이상치에 강건
  • 최빈값 (Mode): 가장 많이 나타나는 값. 범주형에 유용

산포도 (데이터가 얼마나 퍼져있는가)

  • 분산 (Variance): 각 값이 평균에서 얼마나 떨어졌는지의 제곱 평균
  • 표준편차 (Standard Deviation): 분산의 제곱근. 원래 단위와 같아서 해석이 쉬움
  • 범위 (Range): 최대값 - 최소값
  • 사분위 범위 (IQR): Q3 - Q1

분포의 형태

  • 왜도 (Skewness): 분포가 얼마나 비대칭인가
    • 왜도 = 0 → 대칭 (정규분포)
    • 왜도 > 0 → 오른쪽 꼬리가 긴 분포 (양의 왜도) → 평균 > 중앙값
    • 왜도 < 0 → 왼쪽 꼬리가 긴 분포 (음의 왜도) → 평균 < 중앙값
  • 첨도 (Kurtosis): 분포가 얼마나 뾰족한가
    • 첨도 = 3 → 정규분포 (기준)
    • 첨도 > 3 → 뾰족 (급첨, Leptokurtic)
    • 첨도 < 3 → 완만 (완첨, Platykurtic)

시험 포인트: "양의 왜도 → 오른쪽 꼬리 → 평균 > 중앙값" 무조건 암기

상관분석

  • 피어슨 상관계수 (r): -1 ~ +1 사이. 두 변수의 선형 관계 강도
    • r = +1: 완벽한 양의 상관 (하나 올라가면 다른 것도 올라감)
    • r = 0: 선형 관계 없음
    • r = -1: 완벽한 음의 상관
    • |r| > 0.7 이면 강한 상관
  • 스피어만 상관계수: 순위(rank) 기반. 비선형에도 사용 가능
  • 주의: 상관관계 ≠ 인과관계! (아이스크림 판매량↑ ↔ 익사사고↑ → 인과 아님, 여름이라는 혼동변수)

2-3. 확률분포 (매회 3~4문제, 핵심)

이산형 확률분포 (셀 수 있는 값)

이항분포 (Binomial)

  • n번 시행, 성공확률 p, 성공 횟수의 분포
  • 예) 동전 10번 던져서 앞면 나오는 횟수
  • 평균 = np, 분산 = np(1-p)

포아송분포 (Poisson)

  • 일정 시간/공간에서 사건이 발생하는 횟수의 분포
  • 예) 1시간 동안 콜센터에 걸려오는 전화 수
  • 평균 = λ, 분산 = λ (평균과 분산이 같음!)

베르누이분포

  • 이항분포에서 n=1인 경우. 성공/실패 딱 1번.

기하분포

  • 처음 성공할 때까지 시행하는 횟수의 분포

연속형 확률분포 (아무 값이나 가능)

정규분포 (Normal, Gaussian)

  • 가장 중요! 종 모양, 좌우 대칭
  • 평균(μ)과 표준편차(σ)로 결정됨
  • 68-95-99.7 규칙: μ±1σ에 68%, μ±2σ에 95%, μ±3σ에 99.7%
  • 표준정규분포: μ=0, σ=1로 변환한 정규분포

t-분포 (Student's t)

  • 정규분포와 비슷하지만 표본이 작을 때 사용 (보통 n < 30)
  • 자유도가 커지면 정규분포에 가까워짐
  • 정규분포보다 꼬리가 두꺼움 (극단값 가능성 높음)

카이제곱분포 (χ²)

  • 표준정규분포를 따르는 변수들의 제곱합
  • 적합도 검정: 관측값이 기대값과 맞는지
  • 독립성 검정: 두 범주형 변수가 독립인지
  • 항상 양수, 오른쪽으로 치우침

F-분포

  • 두 카이제곱분포의 비율
  • 분산분석(ANOVA)에서 사용
  • 두 집단의 분산이 같은지 비교

초중요 암기:

  • 포아송: 평균 = 분산 = λ
  • 정규분포: 68-95-99.7
  • t분포: 소표본, 자유도↑ → 정규분포
  • 카이제곱: 적합도/독립성 검정
  • F분포: 분산분석(ANOVA)

2-4. 표본추출 방법

확률적 표본추출

  • 단순무작위추출: 모든 원소가 동일 확률로 선택. 가장 기본
  • 체계적 추출 (계통추출): 첫 번째를 랜덤 선택 후, k번째마다 추출 (예: 3번째, 13번째, 23번째...)
  • 층화추출: 모집단을 동질적인 그룹(층)으로 나눈 뒤, 각 층에서 추출 (예: 남/여 나눠서 각각 추출)
  • 군집추출 (집락추출): 모집단을 이질적인 그룹(군집)으로 나눈 뒤, 일부 군집을 통째로 선택

시험 포인트: 층화 vs 군집 차이

  • 층화: 층 내부 동질, 층 간 이질 → 모든 층에서 추출
  • 군집: 군집 내부 이질, 군집 간 동질 → 일부 군집만 선택

비확률적 표본추출

  • 편의추출: 접근 쉬운 대상 선택 (길거리 설문)
  • 판단추출: 전문가 판단으로 선택
  • 할당추출: 모집단 비율에 맞게 할당 (남:여 = 6:4 → 60명:40명)
  • 눈덩이추출: 한 응답자가 다른 응답자를 소개 (희귀집단 조사에 유용)

2-5. 가설검정 기초

가설의 종류

  • 귀무가설 (H₀): "차이가 없다", "효과가 없다" (현재 상태 유지)
  • 대립가설 (H₁): "차이가 있다", "효과가 있다" (연구자가 증명하고 싶은 것)

오류의 종류

  • 1종 오류 (α, Type I): 귀무가설이 참인데 기각함 → "없는 효과를 있다고 판단"
  • 2종 오류 (β, Type II): 귀무가설이 거짓인데 채택함 → "있는 효과를 없다고 판단"
  • 검정력 (Power): 1 - β. 실제 효과가 있을 때 이를 발견할 확률

암기법:

  • 1종 오류 = 무고한 사람을 유죄 판결 (False Positive)
  • 2종 오류 = 범인을 무죄 판결 (False Negative)

p-value (유의확률)

  • 귀무가설이 참이라는 가정 하에, 관측된 결과(또는 더 극단적인 결과)가 나올 확률
  • p-value < α (유의수준, 보통 0.05) → 귀무가설 기각 → 통계적으로 유의미
  • p-value ≥ α → 귀무가설 채택 (기각하지 못함)

주요 검정 방법

검정용도예시
t-검정두 집단의 평균 비교A반 vs B반 성적 차이
ANOVA (F-검정)3개 이상 집단의 평균 비교A,B,C반 성적 차이
카이제곱 검정범주형 변수 간 독립성/적합도성별과 구매 여부 관계
상관분석연속형 변수의 관계 강도키와 몸무게 관계

2-6. 데이터 시각화

시각화 유형

  • 히스토그램: 연속형 변수의 분포. 막대가 붙어있음
  • 막대그래프 (Bar Chart): 범주형 변수의 빈도/크기. 막대가 떨어져있음
  • 박스플롯 (Box Plot): Q1, 중앙값, Q3, 이상치를 한눈에. 분포 비교에 좋음
  • 산점도 (Scatter Plot): 두 연속형 변수의 관계. 상관관계 시각화
  • 히트맵 (Heatmap): 행렬 형태로 값의 크기를 색상으로 표현. 상관행렬에 자주 사용
  • 파이차트: 전체 대비 비율. (사실 잘 안 씀, 막대가 더 정확)
  • 라인차트: 시계열 데이터의 추이

시험 포인트: 히스토그램 vs 막대그래프 차이 (연속형 vs 범주형, 붙어있음 vs 떨어져있음)


3과목: 빅데이터 모델링

3-1. 분석 모형의 분류

지도학습 (Supervised Learning)

  • 정답(레이블)이 있는 데이터로 학습
  • 분류 (Classification): 범주형 예측 (스팸/정상, 합격/불합격)
  • 회귀 (Regression): 연속형 예측 (집값, 매출액)

비지도학습 (Unsupervised Learning)

  • 정답 없이 데이터의 패턴/구조를 발견
  • 군집분석 (Clustering): 비슷한 데이터끼리 그룹화
  • 차원축소: 변수 수를 줄이면서 정보는 최대한 보존 (PCA)
  • 연관규칙: 함께 구매되는 상품 패턴 발견 (장바구니 분석)

강화학습 (Reinforcement Learning)

  • 환경과 상호작용하며 보상을 최대화하는 행동을 학습
  • 예) 알파고, 로봇 제어

3-2. 회귀분석

선형회귀 (Linear Regression)

  • Y = β₀ + β₁X₁ + β₂X₂ + ... + ε
  • 연속형 타깃 변수를 예측
  • 단순선형회귀: 독립변수 1개
  • 다중선형회귀: 독립변수 2개 이상

회귀분석 주요 개념

  • R² (결정계수): 모델이 데이터를 얼마나 잘 설명하는지 (0~1, 1에 가까울수록 좋음)
  • 수정된 R² (Adjusted R²): 변수 수 증가에 따른 R² 부풀림을 보정
  • 잔차 (Residual): 실제값 - 예측값
  • 다중공선성: 독립변수들끼리 높은 상관관계가 있는 문제
    • VIF (분산팽창인수): 10 이상이면 다중공선성 의심
    • 해결법: 변수 제거, PCA, 릿지/라쏘 회귀

로지스틱 회귀 (Logistic Regression)

  • 분류 문제에 사용 (이름에 회귀가 들어가지만 분류 모델!)
  • 결과를 0~1 사이의 확률로 출력 (시그모이드 함수 사용)
  • 이진 분류: 확률 > 0.5 → 1, 아니면 → 0

시험 포인트: 선형회귀 = 연속형 예측 (회귀), 로지스틱회귀 = 범주형 예측 (분류)


3-3. 분류 알고리즘 (가장 많이 출제)

의사결정나무 (Decision Tree)

  • 트리 형태로 조건을 분기하면서 분류/예측
  • 장점: 해석이 쉬움, 시각화 가능, 전처리 적게 필요
  • 단점: 과적합 위험, 불안정 (데이터 조금 바뀌면 트리 크게 변함)
  • 분할 기준:
    • 분류: 지니 지수 (Gini Index), 엔트로피 (Entropy/Information Gain)
    • 회귀: 분산 감소
  • 가지치기 (Pruning): 과적합 방지를 위해 트리를 잘라냄

랜덤포레스트 (Random Forest)

  • 여러 개의 의사결정나무를 만들어서 다수결로 결정 (배깅 앙상블)
  • Bagging + 변수 랜덤 선택
  • 장점: 과적합에 강함, 성능 좋음, 변수 중요도 파악 가능
  • 단점: 해석 어려움 (블랙박스)

SVM (Support Vector Machine)

  • 두 클래스를 가장 잘 구분하는 초평면(결정경계)을 찾음
  • 서포트 벡터: 결정경계에 가장 가까운 데이터 포인트
  • 마진: 서포트벡터와 결정경계 사이의 거리. 마진을 최대화
  • 커널 트릭: 비선형 데이터를 고차원으로 변환해서 선형 분리
    • 선형, 다항식, RBF(가우시안), 시그모이드 커널
  • 장점: 고차원에서 성능 좋음
  • 단점: 대용량 데이터에 느림, 해석 어려움

KNN (K-Nearest Neighbors)

  • 새 데이터와 가장 가까운 K개 이웃의 다수결로 분류
  • K가 작으면: 과적합 위험, 노이즈에 민감
  • K가 크면: 과소적합, 결정 경계가 단순해짐
  • 거리 척도: 유클리디안, 맨해튼, 민코프스키
  • 장점: 단순, 학습 불필요 (게으른 학습, Lazy Learning)
  • 단점: 계산량 많음, 고차원에서 성능 저하 (차원의 저주)

나이브 베이즈 (Naive Bayes)

  • 베이즈 정리 기반. 모든 특성(변수)이 서로 독립이라고 가정
  • P(클래스|특성) ∝ P(특성|클래스) × P(클래스)
  • 장점: 빠름, 적은 데이터에도 잘 작동, 텍스트 분류에 강함 (스팸필터)
  • 단점: 독립 가정이 현실에서 잘 안 맞음

XGBoost / LightGBM / CatBoost

  • 부스팅 계열 앙상블 모델. 약한 모델을 순차적으로 결합
  • XGBoost: 가장 널리 사용. 정규화 포함, 병렬처리 가능
  • LightGBM: 더 빠름. 대용량에 적합. Leaf-wise 분할
  • CatBoost: 범주형 변수 자동 처리

3-4. 앙상블 (Ensemble) 방법

배깅 (Bagging, Bootstrap Aggregating)

  • 데이터를 복원추출해서 여러 모델을 만들고 결합
  • 분류: 다수결, 회귀: 평균
  • 분산 감소 효과
  • 대표: 랜덤포레스트

부스팅 (Boosting)

  • 이전 모델이 틀린 데이터에 가중치를 줘서 다음 모델이 집중 학습
  • 순차적으로 모델을 만듦
  • 편향 감소 효과
  • 대표: AdaBoost, GBM, XGBoost, LightGBM

스태킹 (Stacking)

  • 여러 모델의 예측 결과를 새로운 모델의 입력으로 사용
  • 1단계: 여러 기본 모델로 예측 → 2단계: 메타 모델이 최종 예측

초중요 비교:

  • 배깅: 병렬, 분산↓, 랜덤포레스트
  • 부스팅: 순차, 편향↓, XGBoost

3-5. 비지도학습

K-Means 군집분석

  • K개의 중심점을 기준으로 가장 가까운 데이터를 묶음
  • 과정: 중심점 초기화 → 할당 → 중심점 업데이트 → 반복
  • K를 미리 정해야 함 (엘보우 방법으로 최적 K 결정)
  • 장점: 간단, 빠름
  • 단점: K를 정해야 함, 구형 군집만 잘 찾음, 이상치에 민감

DBSCAN

  • 밀도 기반 군집분석. K를 정할 필요 없음
  • eps: 이웃 반경, min_samples: 최소 점 개수
  • 장점: 비구형 군집 발견 가능, 이상치 자동 탐지, K 불필요
  • 단점: 밀도가 다양한 데이터에 약함

계층적 군집분석

  • 병합형 (Agglomerative): 개별 데이터에서 시작 → 점점 합침 (Bottom-Up)
  • 분할형 (Divisive): 전체에서 시작 → 점점 나눔 (Top-Down)
  • 덴드로그램: 군집 병합 과정을 트리로 시각화
  • 적절한 높이에서 잘라서 군집 수 결정

PCA (주성분분석, Principal Component Analysis)

  • 차원축소 기법. 고차원 데이터를 저차원으로 변환
  • 분산이 가장 큰 방향으로 새로운 축(주성분)을 만듦
  • 첫 번째 주성분이 가장 많은 분산을 설명
  • 장점: 다중공선성 해결, 시각화, 노이즈 제거
  • 단점: 해석이 어려움 (원래 변수의 의미가 사라짐)

연관규칙 분석 (장바구니 분석)

  • "A를 사면 B도 산다" 규칙 발견
  • 지지도 (Support): 전체 거래 중 A와 B가 동시에 포함된 비율
  • 신뢰도 (Confidence): A를 산 사람 중 B도 산 비율
  • 향상도 (Lift): 신뢰도 / B의 지지도
    • Lift > 1: 양의 연관 (함께 사는 경향)
    • Lift = 1: 독립 (관계 없음)
    • Lift < 1: 음의 연관 (같이 안 사는 경향)
  • Apriori 알고리즘: 최소 지지도를 만족하는 빈발 항목 집합을 찾음

시험 포인트: 지지도/신뢰도/향상도 계산 문제 자주 출제!


3-6. 딥러닝 기초 (개념만)

인공신경망 (ANN)

  • 입력층 → 은닉층 → 출력층
  • 각 노드는 가중치(weight)와 편향(bias)을 가짐
  • 활성화 함수를 통과해서 출력

활성화 함수

  • 시그모이드: 0~1 출력. 이진분류 출력층에 사용. 기울기 소실 문제
  • ReLU: max(0, x). 은닉층에 가장 많이 사용. 기울기 소실 해결
  • Softmax: 다중 클래스 분류의 출력층. 각 클래스 확률합 = 1
  • tanh: -1~1 출력. 시그모이드보다 기울기 소실 적음

CNN (Convolutional Neural Network)

  • 이미지 처리에 특화
  • 합성곱층 → 풀링층 → 완전연결층
  • 필터(커널)가 이미지 위를 슬라이딩하면서 특징 추출

RNN (Recurrent Neural Network)

  • 시계열/텍스트 등 순차 데이터 처리
  • 이전 상태의 출력이 다음 상태의 입력으로 들어감
  • 장기 의존성 문제 → LSTM, GRU로 해결

과적합 방지 기법

  • 드롭아웃 (Dropout): 학습 시 일부 노드를 랜덤으로 꺼둠
  • 조기종료 (Early Stopping): 검증 손실이 더 이상 줄지 않으면 학습 중단
  • 정규화 (Regularization): L1(Lasso), L2(Ridge)
    • L1: 일부 가중치를 0으로 → 변수 선택 효과
    • L2: 가중치를 작게 → 과적합 방지
  • 데이터 증강 (Data Augmentation): 학습 데이터를 변형해서 늘림 (이미지 회전/반전 등)
  • 교차검증 (Cross Validation): 데이터를 k개로 나눠서 k번 학습/평가

경사하강법 (Gradient Descent)

  • 손실함수를 최소화하는 방향으로 가중치를 조금씩 업데이트
  • 학습률 (Learning Rate): 한 번에 얼마나 이동할지
    • 너무 크면: 발산 (최적점을 지나침)
    • 너무 작으면: 학습이 너무 느림
  • 종류:
    • 배치 경사하강법: 전체 데이터로 한번에 업데이트
    • 확률적 경사하강법 (SGD): 데이터 1개씩 업데이트
    • 미니배치 경사하강법: 작은 묶음(배치)씩 업데이트 (가장 일반적)

편향-분산 트레이드오프

  • 편향 (Bias): 모델이 너무 단순해서 패턴을 못 잡음 → 과소적합
  • 분산 (Variance): 모델이 너무 복잡해서 노이즈까지 학습 → 과적합
  • 둘 다 낮추긴 어렵고, 적절한 균형점을 찾아야 함

4과목: 빅데이터 결과 해석

4-1. 모델 평가 지표

분류 모델 평가

혼동행렬 (Confusion Matrix):
| | 예측 Positive | 예측 Negative |
|--|--------------|--------------|
| 실제 Positive | TP (참긍정) | FN (거짓부정) |
| 실제 Negative | FP (거짓긍정) | TN (참부정) |

  • 정확도 (Accuracy): (TP+TN) / 전체. 전체 중 맞춘 비율
  • 정밀도 (Precision): TP / (TP+FP). Positive 예측 중 실제 Positive 비율. "예측의 정확성"
  • 재현율 (Recall, Sensitivity, TPR): TP / (TP+FN). 실제 Positive 중 맞춘 비율. "놓치지 않는 능력"
  • F1 Score: 2 × (정밀도 × 재현율) / (정밀도 + 재현율). 정밀도와 재현율의 조화평균
  • 특이도 (Specificity): TN / (TN+FP). 실제 Negative 중 맞춘 비율

언제 뭘 중시?

  • 스팸 필터: 정밀도 중요 (정상 메일을 스팸으로 잘못 분류하면 안 됨)
  • 암 진단: 재현율 중요 (암 환자를 놓치면 안 됨)

ROC 커브 / AUC

  • ROC 커브: X축=FPR(1-특이도), Y축=TPR(재현율)
  • AUC: ROC 곡선 아래 면적. 0.5~1 사이
    • AUC = 1.0: 완벽한 분류
    • AUC = 0.5: 랜덤 분류 (쓸모없음)
    • AUC > 0.8이면 괜찮은 모델

회귀 모델 평가

  • MAE (Mean Absolute Error): 절대 오차의 평균. 이상치에 덜 민감
  • MSE (Mean Squared Error): 오차 제곱의 평균. 큰 오차에 페널티
  • RMSE (Root MSE): MSE의 제곱근. 원래 단위와 같아서 해석 쉬움
  • MAPE: 평균 절대 백분율 오차. 퍼센트로 해석 가능
  • R² (결정계수): 1에 가까울수록 좋음

4-2. 모델 검증/개선

교차검증 (Cross Validation)

  • K-Fold CV: 데이터를 K개로 나누고, 1개를 검증용, 나머지를 학습용. K번 반복
  • Stratified K-Fold: 각 폴드에서 클래스 비율을 유지 (불균형 데이터에 적합)
  • LOOCV (Leave-One-Out): K = 데이터 개수. 1개만 검증용. 정확하지만 매우 느림
  • Hold-out: 단순히 학습/검증/테스트로 나눔 (보통 7:1.5:1.5 또는 8:1:1)

하이퍼파라미터 튜닝

  • Grid Search: 가능한 모든 조합을 시도. 정확하지만 느림
  • Random Search: 랜덤으로 조합 선택. 효율적
  • Bayesian Optimization: 이전 결과를 바탕으로 다음 탐색점 결정. 가장 효율적

피처 엔지니어링

  • 피처 선택 (Feature Selection): 중요한 변수만 선택
    • Filter: 통계적 기법 (상관계수, 카이제곱 등)
    • Wrapper: 변수 조합을 반복 시도 (전진선택, 후진제거, 단계적)
    • Embedded: 모델 학습 과정에서 자동 선택 (Lasso, 랜덤포레스트 변수중요도)
  • 피처 추출 (Feature Extraction): 기존 변수를 변환해서 새 변수 생성 (PCA)

4-3. 분석 결과 시각화/보고

시각화 원칙

  • 에드워드 터프티: "데이터 잉크 비율" 최대화 (불필요한 장식 최소화)
  • 적절한 차트 유형 선택이 중요
  • 왜곡 금지: 축 조작, 3D 효과로 인한 착시 등

분석 보고서 구성

  1. 분석 개요 (목적, 배경)
  2. 분석 방법 (데이터, 모델, 도구)
  3. 분석 결과 (핵심 발견)
  4. 결론 및 제언 (비즈니스 시사점)

리프트 차트 / 이익 도표

  • 모델의 예측 결과를 확률 높은 순으로 정렬
  • 상위 몇 %를 타겟팅했을 때 얼마나 효과적인지 평가
  • 리프트 = 모델 반응률 / 전체 반응률
  • 리프트 > 1이면 모델이 랜덤보다 나음

자주 출제되는 비교 정리

분류 vs 회귀

구분분류회귀
타깃범주형 (이산)연속형
예시스팸/정상, 합격/불합격집값, 매출, 온도
평가지표정확도, F1, AUCRMSE, MAE, R²

과적합 vs 과소적합

구분과적합 (Overfitting)과소적합 (Underfitting)
원인모델이 너무 복잡모델이 너무 단순
학습 성능높음낮음
테스트 성능낮음낮음
해결정규화, 드롭아웃, 데이터 추가모델 복잡도 증가, 피처 추가

배깅 vs 부스팅

구분배깅부스팅
학습병렬 (독립적)순차 (의존적)
줄이는 것분산편향
과적합상대적으로 안전과적합 가능
대표랜덤포레스트XGBoost, AdaBoost

L1 vs L2 정규화

구분L1 (Lasso)L2 (Ridge)
페널티가중치 절대값 합가중치 제곱 합
효과일부 가중치를 0으로 (변수 선택)가중치를 작게 (축소)
용도불필요한 변수 제거다중공선성 해결

기출 빈출 키워드 모음

아래 용어들은 기출에서 반복적으로 나오는 것들. 뜻만 기억해두면 됨.

  • ETL: Extract(추출), Transform(변환), Load(적재). 데이터 이관 프로세스
  • EDA (탐색적 데이터 분석): 데이터를 시각화/요약하면서 특성 파악
  • 데이터 레이크: 원본 데이터를 그대로 저장하는 대규모 저장소
  • 데이터 웨어하우스: 분석용으로 정제/변환된 데이터 저장소
  • 데이터 마트: 특정 부서/주제용 소규모 웨어하우스
  • OLAP: 다차원 데이터 분석 (드릴다운, 롤업, 슬라이싱, 다이싱)
  • OLTP: 실시간 트랜잭션 처리 (일반 서비스 DB)
  • 데이터 거버넌스: 데이터 관리 정책/프로세스/조직 체계
  • 메타데이터: 데이터에 대한 데이터 (테이블 스키마, 데이터 사전 등)
  • 데이터 리니지: 데이터의 출처와 변환 이력 추적
  • A/B 테스트: 두 버전을 비교하는 실험 (통제군 vs 실험군)
  • 특성 공학 (Feature Engineering): 원본 데이터에서 모델에 유용한 변수를 만들어내는 과정
  • 차원의 저주: 차원(변수)이 너무 많으면 데이터가 희박해져서 성능이 떨어지는 현상
  • 불균형 데이터: 클래스 비율이 극단적 (예: 사기거래 0.1%). 오버샘플링(SMOTE)/언더샘플링으로 해결
  • SMOTE: 소수 클래스의 합성 데이터를 생성하는 오버샘플링 기법
profile
끄적

0개의 댓글