빅분기..필기 틀렸던것만 다시 빠르게 훅훅
문제를 많이 푸는 것도 좋지만..
이미 계속 60점 이상 나오는걸로 봐선..
틀린걸 더 안틀리는게 중요할 듯!!!
집분기
집중: 독립 전담 -> 중복업무 가능성
분산: 분석조직을 각 부서에 배치
기능: 각 부서에서 직접 분석(DOCoE x )
도활확최

개인정보에 노이즈를 추가하여 참여 여부가 분석결과에 영향을 미치지 않도록 함
I다양성: 민감정보에 대해 다양성을 높임
K익명성 : 일정 확률 이상 비식별 되도록 함
가명처리 : 주요 식별요소를 다른 값으로 대체함
추가정보 없이는 알아볼 수 없게 함
다른 정보를 사용해도 개인을 알 수 없게 함
말 그대로 식별이 안되는 정보, 개인정보가 아니다!
하지만 불특정다수에게 공개하면 안됨
소프트웨어: app구성, 데이터 처리/분석, 수집/정제
플랫폼 : 플랫폼 제공, 작업 스케줄링/자원 할당, 관리
인프라 스트럭쳐: 자원 배치, 노드/네트워크 관리 => 자원제공
FTP(File Transfer Protocol): 원격지원 파일 송수신
스크래핑: 웹페이지 자동 추출
표준화는 정규화가 목적일 뿐이다.
적용범위와 방식: 업무 내재화 수준, 분석데이터 적용수준, 데이터 기술적용 수준을 고려
| 분석의 방법(how) / 분석의 대상(what) | Known | Un-Known |
|---|---|---|
| Known | 최적화(Optimization) | 통찰(Insight) |
| Un-Known | 솔루션(Solution) | 발견(Discovery) |
아무것도 모를때 발견!!!!
아무것도 모를 때 발견
아무것도 모를 때 발견
Work Breakdown Structure
프로젝트 소요 비용 배분 - 프로젝트 작업 분할 구조 - 업무 분장 계획, 배분
네트워크를 공유하는 호스트의 파일에 접근할 수 있는 것
파일 저장/접근이 여러 네트워크 노드에 분산되어 있음
Hbase: 하둡 파일 시스템 위에 저장.
시계열 데이터에서 시차값들 사이에 선형관계를 이루는 것
시차를 두고 자기 자신과 얼마나 닮았는지 측정함
데이터셋을 잘라서 일정 개수씩 묶은 것(묶어 나눈 덩어리/단위)
텍스트에서 의미있는 정보를 뽑아내는 것

비복원추출로, 앞선 시행결과가 다음 시행결과에 영향을 주기때문에 시행간 독립성이 성립되지 않는다.
N개 중 n개를 추출 할 때 원하는 것 k개가 뽑힐 확률
모집단은 두가지 범주이며 성공확률은 동일하다
표본분산은 분모에 n-1이 온다(자유도, 모집단 일부 추출했기 때문에 분산을 보정해줘야함)
특이값 분해(svd)를 활용하여 문서와 단어를 차원축소하고, 잠재의미(의미적 유사성)을 추출하는 기법.
LDA(Latent Dirichlet Albacation) : 확률기반 주제 모델링으로 단어들이 여러 주제에 속할 확률을 추정한다
종속변수(y)가 특정범주에 속할 확률을 예측하는 확률기반모델
독립변수의 선형결합을 시그모이드를 통해 0~1의 확률값으로 변환, 확률 출력
종속변수(y)는 이진(0/1)이나 범주형 변수 가능
독립변수(x)는 연속형/범주형 모두 사용 가능
선형회귀계수를 최소제곱량(LSE)로 두면 불편추정(평균값=기댓값)성립
확률기반모델은 정규성 가정이 필요없다.
Q1은 하위 25%지점이다.
trade off관계.
편향과 분산은 흩어짐의 정도를 나타낸다
편향이 크다 - 학습할 패턴이 적다 - 과소적합
분산이 크다 - 과대적합
모두 낮으면 좋은 모델
| 추정량 | 불편성 | 일치성 |
|---|---|---|
| 표본평균 | O (E[] = μ) | O (n→∞이면 μ에 수렴) |
| 표본분산 | O (불편) | O (일치) |
| 표본분산 | X (작은 n에서는 평균보다 작음) | O (n→∞이면 σ²에 수렴) |
교차검증을 사용하여 모델 성능을 비교하며 변수선택을 수행한다.
단순히 통계적 유의성만 본다면 과적합 위험이 있기 때문에 교차검증을 통한 성능비교를 해야함.
상관계수 하나는 단변량 관계만 나타내므로, 다중공선성, 비선형성, 상호작용 등도 고려해야 한다.
종속-독립간 교호작용을 이용해 파생변수를 만드는 것은 모델이 예측해야하는 정보를 누출하게 되는 것이기 때문에 종속-독립 파생변수를 만들 것이 아니라 독립변수끼리 교호작용을 파생변수로 만들어야한다.
표준편차 / 평균, 평균에 대한 변동성 나타냄(-무한,무한)
분산의 경우 데이터가 평균에서 얼마나 떨어져있는가 나타내는 것으로 데이터 하나하나 값이 있음 [0,무한)
셋 이상 집단간의 평균차이가 통계적으로 유의미한지 여부를 검정
집단 내 분산, 집단 간 분산을 비교하여 평균차이의 유의성 판단
3개이상 표본 평균의 분산과 표본내 관측치 분산 비교, 검정
1개 이상 독립변수(X, 범주형), 여러개(2개이상)의 종속변수(Y, 연속형)
1개 독립변수로 집단간 평균 비교하면 ANOVA
1개이상 독립변수와 여러개의 종속변수를 비교하면 MANOVA
피어슨 상관분석
양적 척도(무게, 점수, ...), 연속형 변수, 선형관계 크기 측정(-1~1)
일반적인 상관계수를 의미하며, 선형관계의 강도와 방향을 측정한다.
이상치의 영향이 크게 나타난다.
스피어만 상관분석
서열 척도(만족도, 등수, ...), 순서형 변수(범주), 선형/비선형적 관계 나타냄.
선형관계가 아니어도 1 혹은 -1이 될 수 있다.
1에 가까울수록 단조(커지면 같이 커짐)상관이 높아진다
두 모집단의 분산이 같은지(등분산성)검정
회귀모형에 독립변수를 추가하면 결정계수가 무조건! 향상됨
| 분석/검정 | 통계량 사용 |
|---|---|
| ANOVA | F-통계량 (그룹 간 변동 ÷ 그룹 내 변동) |
| 등분산검정 | 일부 방법(Bartlett's Test)에서 χ² 또는 F-통계량 사용 |
| 회귀분석 유의성검정 | 모델 전체 유의성 검정 시 F-통계량 사용 |
선형변환을 통해 새로운 변수를 생성하고, 이 새로운 변수들은 서로 독립이다.
주로 차원축소/차원의 저주에 활용된다.
선형성과 분산을 기반으로 한 분석이다. 정규분포 아님!!! 상관관계 기반임!!
시간에 따라 변하는 데이터를 예측할 때 이전 관측값은 지수적으로 감소하는 가중치로 반영하는 방법.
최근값일수록 가중치(a)부여(이전 예측 가중치도 함께 결정됨(1-a)), 수요나 값이 완만한경우에 유용하다.
추세나 계절성이 없는 경우에 단순 지수 평활법을 사용.
준척형자료: 척도의 일부 조건 만족하지 않는 자료
순서/간격, 설문조사, 성적등급 등 순서를 가진 자료를 수치화해서 근사적 간격으로 나타낸 것
패널자료 : 동일개체를 여러 시점에 반복해서 관측
횡단면: 여러개체를 동일 시점에 관측

첨도는 단위가 없다 + 항상 양수값을 나타냄
첨도가 0 이면 정규분포를 따른다


1종오류 : 귀무가설이 참인데 대립가설을 채택하는 경우
정규화(규제) : 모델이 너무 큰 계수를 갖지 않도록 제한 → 과적합 방지
L1 정규화 (Lasso라쏘) → 일부 계수를 0으로 만들어 변수 선택 효과
L2 정규화 (Ridge릿지) → 계수를 작게 만들어 모델을 안정화
조기종료 : 검증데이터 성능이 떨어지면 STOP
드롭아웃 : 무작위로 뉴런을 제거해서 일반화 성능을 높임
-민코스프스키 : 유클리드 _ 맨해튼
-마할라노비스 거리: 정규분포, 표준편차 비교거리 척도
노비 비교
다수결 방식으로 모델 선택
약한 모델을 독립적으로 훈련해 예측을 평균화 함 -> 분산줄인
복원추출 기반, 붓스트랩 생성해 보팅으로 결합 -> 다수결.
무한반복시 하나의 데이터가 선택되지 않을 확률 36.8%
병렬학습, 과적합 완화(분산감소)
의사결정 + 배깅, 성능 좋고 이상치에 강함
잘못된 분류 데이터에 큰 가중치->집중학습-> 성능개선, 이상치에 민감
순차, 예측력향상(편향 감소), 샘플링(오분류 가중치)
GBM: 가중치 업데이트 경사하강법
XGBoost : GBM + 정규화 식 추가 -> 속도 빨라짐
Light GBM : 레벨기반이 아니라, 리프중심으로 비대칭 트리구조 나타남
각각의 모델에서 학습한 예측 결과를 다시 학습
동일샘플로 다양한 모델 학습하는 것
미니배치/stochastic 사용
영향
배치크기가 크면 훈련속도가 빠른 반면 메모리를 많이 차지하고 모델성능이 떨어진다
배치크기가 작으면 최적 경로가 비효율적이라 훈련속도가 느린반면, 양이 적어 메모리를 적게 사용하고 모델성능이 높아진다.
미니배치 단위로 평균과 분산을 이용하여 입력노드를 표준화하면, 배치마다 다른 값이 나와 잡음이 생성되고, 가중치 의존도가 낮아진다.
전처리 필요없음 + 데이터 양이 많아도 됨
분류/회귀 모두 사용
명확한 설명력을 가지고 있음.
노드 내 동질성이 높아지는 방향으로 분기(노드간은 이질)
불순도를 가장 많이 줄이는 분할 찾기
신경망 가중치는 최적화 알고리즘(경사 하강법)으로 스스로 학습
매개변수 : 학습하며 자동으로 갱신, 모델추정값(가중치, 계수, 절편, 편향 등) 경사하강법으로 추정할 수 있는 값
초매개변수 : 학습을 진행하며 조정 가능, 은닉층 수, 학습률, 뉴런 수, 배치 크기 등
손실함수: 예측 - 실제간 오차, 주로 복잡한 비선형관계에서는 인공신경망 사용.
손실함수를 최소화하기 위해 전체 데이터를 사용해서 파라미터를 업데이트 하는 방법
Nesterov
Momentum : 관성이용, 지역최소 -> 전역최소 찾아감(일정속도유지)
Adam : RMSprop + 모멘텀
확률적 경사하강법(SGD): 배치샘플(학습데이터 일부)만 보고 파라미터 업데이트, 지역최소 탈출 가능.
손실함수 따라 최적모델 찾음 + 전체 노드 고정 학습율
임의 단일 데이터로 기울기를 계산해 파라미터를 업데이트.
진행방향이 불규칙하고 수렴속도가 불안정하지만 전역최소를 찾을 수 있고 최적화시간이 빠르다.
RMSProp: SGD + 이전 기울기 제곱의 지수 이동평균으로 학습률 조정
Adagrad : 가중치 업데이트 횟수를 조정해 학습률 업데이트(파라미터마다 다른 학습률), 속도달라짐
Adaboost: 앙상블
출력값으로 변환하는 함수, 기울기 소실문제가 발생함.
활성화함수 중 하나로, 기울기 소실문제 완화위해 도입
(다른예제 - LSTM, GRU, 배치정규화, Adam...)
입력값이 0 이하 -> 0 출력
입력값 양수 -> 그대로 출력(무한대까지 출력 가능)
양수구간 미분하면 기울기 1이니까 기울기 소멸문제 해결 가능.
확률값을 실수(-무한,무한)로 확장하기 위한 비선형함수
성공확률 P를 자연로그를 이용해 오즈(성공확률과 실패확률의 비)의 로그값으로 변환하는 함수
로그오즈(로짓함수)의 역함수 = 시그모이드
실수를 0~1의 확률값으로 변환,
즉 로지스틱 회귀에서 예측값을 확률로 바꾸는 함수가 시그모이드.
- 로지스틱 회귀는 분류모델이다
확률을 보고 범주 결정.
선형회귀
다항회귀
릿지회귀
로지스틱 : 범주형(이진)의 분류를 주 목적으로한다!! 회귀아니다!!
전체 유의성(모든 회귀계수) 검사시 F검정 이용(ANOVA)
RNN계열(LSTM, GRU), 길이가 다른 입력도 처리 가능


베이즈정리를 이용해 분류알고리즘을 만들면 나이브 베이즈.
확률모형함수로 사전확률 + 우도 = 사후확률.
종속변수(y)의 확률을 계산하며, 별도의 학습과정이 없음
모수검정 : 통계적 해석
비모수 검정 : 정규성 가정이 어렵거나 표본 크기가 작은경우 활용
데이터의 순위나 비율 기반 수행 -> 이상치 민감도가 낮으나 검정력 낮음
모델의 성능이 학습데이터 크기에 따라 어떻게 변하는지 보여줌
수평에 수렴하면 모델을 변경해야함.
과대적합 : 훈련오차가 적고 검증오차가 큼

등간척도: 절대 0 없음 -> 비율 무의미 (온도, IQ)
비율척도: 등간 + 0 (나이, 무게, 길이, 시간)