빅분기 필기 _ 250905

AnalytiCode·2025년 9월 5일

빅분기..필기 틀렸던것만 다시 빠르게 훅훅

문제를 많이 푸는 것도 좋지만..
이미 계속 60점 이상 나오는걸로 봐선..
틀린걸 더 안틀리는게 중요할 듯!!!


1과목 빅데이터 분석 기획

조직구조(DOCoE)

집분기
집중: 독립 전담 -> 중복업무 가능성
분산: 분석조직을 각 부서에 배치
기능: 각 부서에서 직접 분석(DOCoE x )

조직분석 성숙도

도활확최

차등보호

개인정보에 노이즈를 추가하여 참여 여부가 분석결과에 영향을 미치지 않도록 함

  • I다양성: 민감정보에 대해 다양성을 높임

  • K익명성 : 일정 확률 이상 비식별 되도록 함

  • 가명처리 : 주요 식별요소를 다른 값으로 대체함

개인정보 보호

가명처리

추가정보 없이는 알아볼 수 없게 함

익명정보

다른 정보를 사용해도 개인을 알 수 없게 함

비식별정보

말 그대로 식별이 안되는 정보, 개인정보가 아니다!
하지만 불특정다수에게 공개하면 안됨

비식별화 기법

  • 데이터 마스킹
    잡음 추가: 식별 정보에 잡음 추가
  • 가명처리
    휴리스틱 익명화: 식별자 값을 규칙으로 대체하거나 가공
  • 데이터 범주화
    랜덤 라운딩: 반올림/내림, 수치형 변수 외에도 확장가능

빅데이터 플랫폼 구조

소프트웨어: app구성, 데이터 처리/분석, 수집/정제
플랫폼 : 플랫폼 제공, 작업 스케줄링/자원 할당, 관리
인프라 스트럭쳐: 자원 배치, 노드/네트워크 관리 => 자원제공

데이터 수집방법

  • 관찰: 실시간/녹화 비디오 통해 직접 관찰
  • FGB(Focus Group Interview): 토론을 통한 인사이트
  • 실험: 가설검증을 위한 조작조건으로 데이터 수집
  • 설문조사: 개별질문과 척도를 통한 의견수집(설문지, 전화인터뷰..)

데이터 수집시 고려사항

  • 수집가능성
  • 보안
  • 정확성
  • 난이도
  • 수집비용

웹데이터 수집

FTP(File Transfer Protocol): 원격지원 파일 송수신
스크래핑: 웹페이지 자동 추출

데이터 품질 기준

  • 정확성
  • 완전성: 필수항목이 누락되면 안된다
  • 적시성: 지속적으로 생성하고 소멸하는 데이터가 필요시점에 맞제, 적절히 제공되어야 한다.
  • 일관성

데이터 노이즈 처리

  • 구간화(Bining) : 연속형을 범주형 형태로 변경.
  • 회귀값 대치
  • 군집화 : 비슷한 값들을 묶어서 하나의 군집으로 만들어 중심점을 대표값으로 바꿈.

표준화는 정규화가 목적일 뿐이다.

데이터 산업 구조

  • 인프라
    -하드웨어: 컴퓨터, 스토리지
    -소프트웨어: 데이터관리/ 분석
  • 서비스 : 교육, 데이터/정보 제공

분석과제 우선순위

  • 전략적 중요도
  • ROI
  • 비즈니스 성과
  • 실행용이성

적용범위와 방식: 업무 내재화 수준, 분석데이터 적용수준, 데이터 기술적용 수준을 고려

과제 도출 방식

분석의 방법(how) / 분석의 대상(what)KnownUn-Known
Known최적화(Optimization)통찰(Insight)
Un-Known솔루션(Solution)발견(Discovery)

아무것도 모를때 발견!!!!
아무것도 모를 때 발견
아무것도 모를 때 발견

데이터 웨어하우스

  • ODS : 추출데이터 통합 관리
  • OLAP : 사용자가 직접 다차원 데이터 확인
  • Data Mart: DW의 접근계층으로 데이터를 꺼내 사용자에게 제공

데이터 웨어하우스 특징

  • 주제지향성: 고객/제품 등 중요주제 중심 데이터 구성
  • 통합성 : 일관된 형태로 데이터 변환 입력, 전사적 관점에서 통합.
  • 시계열성: 데이터는 일정기간동안 시점별로 이어짐
  • 비휘발성: 갱신 이외 수정 금지

분석작업계획(WBS)

Work Breakdown Structure
프로젝트 소요 비용 배분 - 프로젝트 작업 분할 구조 - 업무 분장 계획, 배분

분산파일시스템

네트워크를 공유하는 호스트의 파일에 접근할 수 있는 것
파일 저장/접근이 여러 네트워크 노드에 분산되어 있음

  • GFS(구글), HDFS(하둡), 아마존 s3, Ceph

Hbase: 하둡 파일 시스템 위에 저장.

ML 학습종류와 응용

  • 비지도
    - gan : 누락데이터 생성, 시뮬레이터 데이터 생성
  • 지도
    - 분류: 신용평가, 사기검출
    • 회귀: 시세, 가격, 주가, 강우량 예측
  • 강화 : 게임플레이어 생성, 로봇학습 알고리즘, 공급망 최적화

지도학습의 고려 요소

  • 데이터
  • 분석목적
  • 변수의 중요도

자기상관성

시계열 데이터에서 시차값들 사이에 선형관계를 이루는 것
시차를 두고 자기 자신과 얼마나 닮았는지 측정함

batch

데이터셋을 잘라서 일정 개수씩 묶은 것(묶어 나눈 덩어리/단위)

텍스트 마이닝

텍스트에서 의미있는 정보를 뽑아내는 것

전처리 방법

  • 토큰화
  • 어간추출(stemming): 동일 뜻 다른 단어 같은형태로 변환(running, ran, runs -> run)
  • 표제어(lemmatization)
  • 불용어 제거(Stopword removal)

2과목 빅데이터 탐색

이항분포

이산확률분포

  • 베르누이
  • 이항분포
  • 다항분포
  • 포아송 분포
  • 기하분포, 음이항분포, 초기하분포

분포

  • 포아송분포: 평균 = 분산이면 이산확률분포, 평균 = 분산
  • 카이제곱분포 : z~n(0,1)일때 제곱합은 자유도n을 따름
    - 카이제곱 검정 : 범주형 데이터의 적합도 검정 / 독립성검정 / 동질성 검정시 사용
  • 정규분포 : 평균과 분산을 모수로 m=0, 분산=1
  • 초기하분포 : 비복원추출, 표본간의 연관성이 존재한다

초기하분포

비복원추출로, 앞선 시행결과가 다음 시행결과에 영향을 주기때문에 시행간 독립성이 성립되지 않는다.
N개 중 n개를 추출 할 때 원하는 것 k개가 뽑힐 확률
모집단은 두가지 범주이며 성공확률은 동일하다

표본 / 모집단

표본분산은 분모에 n-1이 온다(자유도, 모집단 일부 추출했기 때문에 분산을 보정해줘야함)

  • 불편추정량 : 표본평균 = 모집단평균

LSA(Latent Semantic Analysis)

특이값 분해(svd)를 활용하여 문서와 단어를 차원축소하고, 잠재의미(의미적 유사성)을 추출하는 기법.

LDA(Latent Dirichlet Albacation) : 확률기반 주제 모델링으로 단어들이 여러 주제에 속할 확률을 추정한다

  • 주성분분석(PCA): 수치형 차원 축소
  • 요인분석: 관찰된 변수들 간 공통요인을 찾기위한 통계끼법

로지스틱회귀

종속변수(y)가 특정범주에 속할 확률을 예측하는 확률기반모델
독립변수의 선형결합을 시그모이드를 통해 0~1의 확률값으로 변환, 확률 출력

종속변수(y)는 이진(0/1)이나 범주형 변수 가능
독립변수(x)는 연속형/범주형 모두 사용 가능

선형회귀계수를 최소제곱량(LSE)로 두면 불편추정(평균값=기댓값)성립

확률기반모델은 정규성 가정이 필요없다.

IQR

Q1은 하위 25%지점이다.

편향과 분산

trade off관계.

편향과 분산은 흩어짐의 정도를 나타낸다
편향이 크다 - 학습할 패턴이 적다 - 과소적합
분산이 크다 - 과대적합

모두 낮으면 좋은 모델

추정

  • 점추정: 하나의 값으로 추정
  • 구간추정: 점추정을 기초로(점추정 선행) 신뢰구간을 제시
  • 불편추정량(편향이 없는 추정값 = 불편) : 추정량의 기댓값 = 실제 모수(표본평균, 표본분산 모두 일치)
  • 일치추정량 : 데이터의 개수가 무한대일때, 추정량(표본분산만 일치)은 참이다
추정량불편성일치성
표본평균 Xˉ\bar{X}O (E[Xˉ\bar{X}] = μ)O (n→∞이면 μ에 수렴)
표본분산 S2=1n1(XiXˉ)2S^2 = \frac{1}{n-1}\sum(X_i-\bar{X})^2O (불편)O (일치)
표본분산 Sn2=1n(XiXˉ)2S_n^2 = \frac{1}{n}\sum(X_i-\bar{X})^2X (작은 n에서는 평균보다 작음)O (n→∞이면 σ²에 수렴)

통계적 방법을 이용한 변수 선택 방법

교차검증을 사용하여 모델 성능을 비교하며 변수선택을 수행한다.

  • 교차검증: 데이터를 학습용과 평가용으로 나누어 성능 측정하는 방법
    새로운 데이터에도 잘 맞는 모델인지 일반화 성능을 확인하는 과정

단순히 통계적 유의성만 본다면 과적합 위험이 있기 때문에 교차검증을 통한 성능비교를 해야함.

상관계수를 이용한 변수선택

상관계수 하나는 단변량 관계만 나타내므로, 다중공선성, 비선형성, 상호작용 등도 고려해야 한다.

파생변수

  • 교호작용 : 두 개 이상의 변수를 결합해 파생변수를 만들면, 이 변수가 종속변수에 미치는 영향이 각각의 합으로 나타나지 않음.(새로운 영향)

종속-독립간 교호작용을 이용해 파생변수를 만드는 것은 모델이 예측해야하는 정보를 누출하게 되는 것이기 때문에 종속-독립 파생변수를 만들 것이 아니라 독립변수끼리 교호작용을 파생변수로 만들어야한다.

변동계수(cv)

표준편차 / 평균, 평균에 대한 변동성 나타냄(-무한,무한)

분산의 경우 데이터가 평균에서 얼마나 떨어져있는가 나타내는 것으로 데이터 하나하나 값이 있음 [0,무한)

분산분석(ANOVA)

셋 이상 집단간의 평균차이가 통계적으로 유의미한지 여부를 검정

집단 내 분산, 집단 간 분산을 비교하여 평균차이의 유의성 판단
3개이상 표본 평균의 분산과 표본내 관측치 분산 비교, 검정

  • 상관분석 : 연속형변수 2개 관계를 추정
  • 회귀분석: 독립변수가 종속변수에 미치는 영향 추정
  • 카이제곱분석: 범주형 변수간 독립성 / 적합성 검정

다변량분석 (MANOVA)

1개 이상 독립변수(X, 범주형), 여러개(2개이상)의 종속변수(Y, 연속형)

1개 독립변수로 집단간 평균 비교하면 ANOVA
1개이상 독립변수와 여러개의 종속변수를 비교하면 MANOVA

상관분석

  • 피어슨 상관분석
    양적 척도(무게, 점수, ...), 연속형 변수, 선형관계 크기 측정(-1~1)
    일반적인 상관계수를 의미하며, 선형관계의 강도방향을 측정한다.
    이상치의 영향이 크게 나타난다.

  • 스피어만 상관분석
    서열 척도(만족도, 등수, ...), 순서형 변수(범주), 선형/비선형적 관계 나타냄.
    선형관계가 아니어도 1 혹은 -1이 될 수 있다.
    1에 가까울수록 단조(커지면 같이 커짐)상관이 높아진다

F검정

두 모집단의 분산이 같은지(등분산성)검정

  • 결정계수(R^2) : 회귀모델이 데이터를 얼마나 설명하는지(설명력) 나타냄
    1에 가까울수록 좋은 모델
    결정계수 = 설명계수

회귀모형에 독립변수를 추가하면 결정계수가 무조건! 향상됨

  • F통계량 : 분산 비율을 이용해 두 집단간 차이를 검정할 때 사용되는 통계량
분석/검정통계량 사용
ANOVAF-통계량 (그룹 간 변동 ÷ 그룹 내 변동)
등분산검정일부 방법(Bartlett's Test)에서 χ² 또는 F-통계량 사용
회귀분석 유의성검정모델 전체 유의성 검정 시 F-통계량 사용

차원축소의 목적

  • 특징추출 : PCA, 데이터 중요 특성을 추출
  • 설명력 증가: 주요 구성요소만 남겨 설명력을 증가시킴(해석용이)
  • 노이즈 제거 : 패턴을 유지하고 불필요한 변동을 제거함

주성분분석(PCA)

선형변환을 통해 새로운 변수를 생성하고, 이 새로운 변수들은 서로 독립이다.
주로 차원축소/차원의 저주에 활용된다.
선형성과 분산을 기반으로 한 분석이다. 정규분포 아님!!! 상관관계 기반임!!

  • 차원의 저주 : 변수가 많아질수록 생기는 문제(과적합, 계산량, ...)

단순 지수 평활법

시간에 따라 변하는 데이터를 예측할 때 이전 관측값은 지수적으로 감소하는 가중치로 반영하는 방법.
최근값일수록 가중치(a)부여(이전 예측 가중치도 함께 결정됨(1-a)), 수요나 값이 완만한경우에 유용하다.

추세나 계절성이 없는 경우에 단순 지수 평활법을 사용.

시계열 자료

  • 준척형자료: 척도의 일부 조건 만족하지 않는 자료
    순서/간격, 설문조사, 성적등급 등 순서를 가진 자료를 수치화해서 근사적 간격으로 나타낸 것

  • 패널자료 : 동일개체를 여러 시점에 반복해서 관측

  • 횡단면: 여러개체를 동일 시점에 관측

왜도와 첨도

첨도는 단위가 없다 + 항상 양수값을 나타냄
첨도가 0 이면 정규분포를 따른다

스케일링

  • Z-score : 평균0, 표준편차1 (음수값 가능)
  • binning: 데이터 구간화
  • box-cox : 양수데이터에만 적용, 정규분포에 근사하게 변환.

지지도 / 신뢰도

오류


1종오류 : 귀무가설이 참인데 대립가설을 채택하는 경우

3과목 빅데이터 모델링

과적합 해결방안

  • 정규화(규제) : 모델이 너무 큰 계수를 갖지 않도록 제한 → 과적합 방지
    L1 정규화 (Lasso라쏘) → 일부 계수를 0으로 만들어 변수 선택 효과
    L2 정규화 (Ridge릿지) → 계수를 작게 만들어 모델을 안정화

  • 조기종료 : 검증데이터 성능이 떨어지면 STOP

  • 드롭아웃 : 무작위로 뉴런을 제거해서 일반화 성능을 높임

거리공식

  • L1(맨해튼), 대각선X
  • L2(유클리드), 최단값(피타고라스)
    이 리

-민코스프스키 : 유클리드 _ 맨해튼

-마할라노비스 거리: 정규분포, 표준편차 비교거리 척도
노비 비교

앙상블

보팅

다수결 방식으로 모델 선택

배깅(Bagging)

약한 모델을 독립적으로 훈련해 예측을 평균화 함 -> 분산줄인
복원추출 기반, 붓스트랩 생성해 보팅으로 결합 -> 다수결.
무한반복시 하나의 데이터가 선택되지 않을 확률 36.8%
병렬학습, 과적합 완화(분산감소)

랜덤포레스트

의사결정 + 배깅, 성능 좋고 이상치에 강함

부스팅(Boosting)

잘못된 분류 데이터에 큰 가중치->집중학습-> 성능개선, 이상치에 민감
순차, 예측력향상(편향 감소), 샘플링(오분류 가중치)

GBM: 가중치 업데이트 경사하강법
XGBoost : GBM + 정규화 식 추가 -> 속도 빨라짐
Light GBM : 레벨기반이 아니라, 리프중심으로 비대칭 트리구조 나타

스태킹(stacking)

각각의 모델에서 학습한 예측 결과를 다시 학습
동일샘플로 다양한 모델 학습하는 것

배치(batch)

미니배치/stochastic 사용

영향

  • 훈련속도
  • 메모리
  • 모델 성능(정확도)

배치크기가 크면 훈련속도가 빠른 반면 메모리를 많이 차지하고 모델성능이 떨어진다
배치크기가 작으면 최적 경로가 비효율적이라 훈련속도가 느린반면, 양이 적어 메모리를 적게 사용하고 모델성능이 높아진다.

배치정규화(BN)

미니배치 단위로 평균과 분산을 이용하여 입력노드를 표준화하면, 배치마다 다른 값이 나와 잡음이 생성되고, 가중치 의존도가 낮아진다.

의사결정나무

전처리 필요없음 + 데이터 양이 많아도 됨
분류/회귀 모두 사용
명확한 설명력을 가지고 있음.

노드 내 동질성이 높아지는 방향으로 분기(노드간은 이질)

분리기준

불순도를 가장 많이 줄이는 분할 찾기

  • 지니지수 : 불순도 측정 지표 (CART), 0에 가까우면 GOOD
  • 엔트로피 : 정보 이득이 큰걸로 분할, 작을수록 GOOD
  • 카이제곱 통계량 : 범주형, 관측빈도와 유의빈도 차이를 유의확률로..

하이퍼 파라미터(초매개변수)

  • knn의 k
  • 인공신경망 은닉층 수
  • 결정트리 깊이

신경망 가중치는 최적화 알고리즘(경사 하강법)으로 스스로 학습

매개변수 vs 초매개변수

매개변수 : 학습하며 자동으로 갱신, 모델추정값(가중치, 계수, 절편, 편향 등) 경사하강법으로 추정할 수 있는 값
초매개변수 : 학습을 진행하며 조정 가능, 은닉층 수, 학습률, 뉴런 수, 배치 크기 등

손실함수

손실함수: 예측 - 실제간 오차, 주로 복잡한 비선형관계에서는 인공신경망 사용.

경사하강법(GD) 기반 알고리즘

손실함수를 최소화하기 위해 전체 데이터를 사용해서 파라미터를 업데이트 하는 방법

Nesterov

  • Momentum : 관성이용, 지역최소 -> 전역최소 찾아감(일정속도유지)

  • Adam : RMSprop + 모멘텀

  • 확률적 경사하강법(SGD): 배치샘플(학습데이터 일부)만 보고 파라미터 업데이트, 지역최소 탈출 가능.
    손실함수 따라 최적모델 찾음 + 전체 노드 고정 학습율
    임의 단일 데이터로 기울기를 계산해 파라미터를 업데이트.
    진행방향이 불규칙하고 수렴속도가 불안정하지만 전역최소를 찾을 수 있고 최적화시간이 빠르다.

  • RMSProp: SGD + 이전 기울기 제곱의 지수 이동평균으로 학습률 조정

  • Adagrad : 가중치 업데이트 횟수를 조정해 학습률 업데이트(파라미터마다 다른 학습률), 속도달라짐

Adaboost: 앙상블

활성화함수

출력값으로 변환하는 함수, 기울기 소실문제가 발생함.

  • 시그모이드 : 로지스틱 회귀 사용 활성화함수
    미분시 최댓값 X = 0
  • tanh : -1 ~ 1, RNN,LSTM 순환신경망에 사용
  • ReLU

ReLU

활성화함수 중 하나로, 기울기 소실문제 완화위해 도입
(다른예제 - LSTM, GRU, 배치정규화, Adam...)

입력값이 0 이하 -> 0 출력
입력값 양수 -> 그대로 출력(무한대까지 출력 가능)
양수구간 미분하면 기울기 1이니까 기울기 소멸문제 해결 가능.

로짓함수

확률값을 실수(-무한,무한)로 확장하기 위한 비선형함수
성공확률 P를 자연로그를 이용해 오즈(성공확률과 실패확률의 비)의 로그값으로 변환하는 함수

로그오즈(로짓함수)의 역함수 = 시그모이드
실수를 0~1의 확률값으로 변환,
즉 로지스틱 회귀에서 예측값을 확률로 바꾸는 함수가 시그모이드.

- 로지스틱 회귀는 분류모델이다
확률을 보고 범주 결정.

회귀분석

  • 선형회귀

  • 다항회귀

  • 릿지회귀

  • 로지스틱 : 범주형(이진)의 분류를 주 목적으로한다!! 회귀아니다!!

회귀분석 유의성검정

전체 유의성(모든 회귀계수) 검사시 F검정 이용(ANOVA)

시퀀스 투 시퀀스

RNN계열(LSTM, GRU), 길이가 다른 입력도 처리 가능

  • 컨텍스트 벡터 : 마지막 은닉 상태를 하나의 벡터로 요약
    입력시퀀스가 길면 정보손실이 발생 + 예측품질이 저하됨

CNN VS RNN

군집분석

  • 계층적 군집분석: 한번 합쳐진 군집 쪼개거나 이동 x
  • k-means : k값이 커지면 노이즈도 군집으로 잘못해석. 계층적 군집보다 빠르다. k값 먼저 정하는거 잊지말기

연결법

  • 와드연결법 : 군집 병합시 SSE(제곱오차 하)의 증가를 최소화 하는 연결
  • 완전연결법 : 두 군집 사이의 거리중 최대값을 기준으로 연결

네트워크 분석 지표

  • 밀도 : 그래프 연결 수가 최대중 얼마인지, 전반적 연결정도
  • 포괄성 : 전체중 연결된 노드 비율
  • 전이성 : 삼각관계 비율, 국소밀집도 측정(클러스터링 정도)
  • 정도: 한 노드가 연결된 간선의 개수

베이즈

베이즈정리를 이용해 분류알고리즘을 만들면 나이브 베이즈.
확률모형함수로 사전확률 + 우도 = 사후확률.
종속변수(y)의 확률을 계산하며, 별도의 학습과정이 없음

모수 vs 비모수

모수검정 : 통계적 해석
비모수 검정 : 정규성 가정이 어렵거나 표본 크기가 작은경우 활용
데이터의 순위나 비율 기반 수행 -> 이상치 민감도가 낮으나 검정력 낮음

4과목 - 빅데이터 결과해석

학습곡선

모델의 성능이 학습데이터 크기에 따라 어떻게 변하는지 보여줌

수평에 수렴하면 모델을 변경해야함.
과대적합 : 훈련오차가 적고 검증오차가 큼

ROC커브

등간척도 VS 비율척도

  • 등간척도: 절대 0 없음 -> 비율 무의미 (온도, IQ)

  • 비율척도: 등간 + 0 (나이, 무게, 길이, 시간)

0개의 댓글