회귀 분석(regression analysis): 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법
비선형인 함수적 관계일 경우 비선형회구(nonlinear regression)를 사용 (ex. 마케팅 비용에 따른 매출액을 예측)
종속 변수(dependent variable): 다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측하고자 하는 변수(ex. 매출액, 수율, 불량율 등)
독립 변수(independent varibale): 종속변수에 영향을 주는 변수로 설명변수라 표현하기도 하며, 예측하는 값을 설명해주는 변수
단순 회귀분석(simpole regression analysis): 하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법을 단순 회귀 분석이라고 함






최소 제곱법: 회귀 모형의 모수 β0, β1 을 추정하는 방법중 하나를 최소 제곱법이라고 하며, 회귀 모형의 모수를 회귀 계수라고 함
최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square) 라고 함
회귀 모형의 오차에 대한 기본 가정
1) 정규성 가정: 오차항은 평균이 0인 정규 분포를 따름
2) 등분산성 가정: 오차항의 분산은 모든 관측값 rX에 상관없이 일정함
3) 독립성 가정: 모든 오차항은 서로 독립임















a) 선형성을 벗어나는 경우: 종속변수와 독립변수가 선형 관계가 아님
b) 등분산성이 벗어난 경우: 일반적인 회귀모형 사용 불가능, 등분산성 가정 위배
c) 독립성에 벗어나는 경우: 시계열 데이터 또는 관측 순서에 영향을 받는 데이터에서는 독립성을 담보할 수 없음(Durbin-Watson test 실행)
d) 정규성을 벗어나는 경우: Normal Q-Q plot으로도 확인, 잔차가 -2 ~ +2 사이에 분포해야 함, 벗어나는 자료가 많으면 독립성 가정 위배



다항 회귀분석(polynomial regression): 독립 변수가 k개이고 반응 변수와 독립변수가 1차 함수 이상인 회귀분석
예시) 주택 가격 = 범죄율 + 주택1가구당 폋균 방의 개수 + ... + 모집단의 하위계층의 비율







분산분석: 셋 이상의 모집단으로부터 추출한 양적 데이터를 비교하는 통계적 분석 방법
t-test: 두개의 모집단의 평균 차이를 검정
만약 아래의 평균 차이 검정을 t-test로 한다면


실험계획법(experimental design): 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험설계
반응변수 : 관심의 대상이 되는 변수
요인/인지(Factor): 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
인자수준: 인자가 취하는 개별 값(처리:treatment)
분산분석인 이유: 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석하는 방법, 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정
분산분석의 기본 가정
1) 각 모집단의 정규 분포를 따른다
2) 각 모집단의 동일한 분산을 갖는다
3) 각 표본은 독립적으로 추출되었다
분산분석의 가설: H0: 각 집단의 평균은 동일하다 vs H1: 각 집단의 평균에 차이가 있다
실험의 가정

One-way ANOVA: 한 개의 반응 변수와 한 개의 독립 인자
반응 변수: 연속형 변수만 가능
독립 인자(변수): 이산형 또는 볌주형 변수만 가능
예시) A,B,C 3개의 편의점에서 만족도를 조사한 결과 만족도의 차이가 있는가?
생산라인 A,B,C에서 생산되는 웨이퍼의 불량률은 차이가 있는가?








Two-way ANOVA: 한 개의 방응 변수와 두 개의 독립 인자로 분석하는 방법
독립인자: one-way와 마찬가지로 이산형 또는 범주형 변수만 가능
예) 만족도에 영향을 주는 인자가 편의점 브랜드와 상권이라고 할 때, 편의점 브랜드별로 상권을 변경하면서 만족도가 다른지 측정하고 분석하는 방법







시계열분석(time series analysis): 시계열(시간의 흐름에 따라 기록된 것) 자료(data)를 분석하고 여러 변수들간의 인과관계를 분석하는 방법
시계열 데이터: 시간을 기준으로 관측된 데이터로, 보통 일->주->월->분기->년 또는 Hour 등 시간의 경과에 따라서 관측한 데이터
예) GDP, 주가, 거래액, 매출액, 승인금액 등을 시간의 흐름에 따라 정의한 데이터
시계열 데이터는 연속 시계열과 이산 시계열 데이터로 구분할 수 있음
연속 시계열: 자료가 연속적으로 생성, 대부분의 데이터 형태가 연속형이나 이산형 정의하여 분석
이산형 시계열: 일정 시차(간격)을 주고 관측되는 형태의 데이터
대부분 이산형 데이터를 분석
시계열 분석의 목적
예측: 금융시장 예측, 수요 예측 등 미래의 측정 시점에 대한 관심의 대상(반응변수)을 예측
시계열 특성 파악: 경향(Trend), 주기, 계절성, 변동성(패턴) 등 관측치의 시계열 특성 파악
전통적인 시계열 분석 방법
이동 평균 모형(moving average) : 최근 데이터의 평균을 예측치로 사용하는 방법
자기 상관 모형(Autocorrelation): 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법
ARIMA(Autoregressive Integrated Moving Average): 관측값과 오차를 사용해서 모형을 만들어서 미래를 예측하는 방법
지수평활법: 현재에 가까운 시점에 가장 많은 가중치 주고 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법

경향/추세(trend): 시계열 데이터가 장기적으로 증가(감소)할 때, 추세가 존재함
계절성(seasonality): 특정기간(1년마다) 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 줄 때 계절성(seasonality)이라고 함
예) 패션업종 매출, 요일 별 온라인 쇼핑몰 매출 등이 계절성의 대표적
















Bagging: boostrap aggregating의 약어로 데이터를 가방(bag)에 쓸어 담아 복원추출하여 여러 개의 표본을 만들어 이를 기반으로 각각의 모델을 개발한 후에 결과를 하나로 합쳐 하나의 모델을 만들어 내는 것
예) Randomforest
Boosting: Boosting도 Bagging과 동일하게 복원 랜덤 샐플링을 하지만, 가중치를 부여한다는 차이점
Bagging이 병렬로 학습하는 반면, Boosting은 순차적으로 학습시킵니다. 학습이 끝나면 나온 결과에 따라 가중치가 재분배
예) AdaBoost, XGBoost, GradientBoost




