한 변수와 또 다른 변수의 크기 사이 관계
상관관계가 두 변수 사이 관련된 강도를 측정하는 것이라면 회귀는 관계 자체를 정량화하는 방법
단순선형회귀를 통해 X의 변화에 따라 Y가 얼마나 변화하는 지 정확하게 추정 가능
상관계수의 경우 두 변수가 서로 바뀌어도 상관 없음
기울기와 절편으로 회귀식을 생성, 보편적으로 기울기를 계수(coefficient)라고 함
Y는 X에 따라 달라지기에 응답변수, 종속변수 라고 부름
X는 독립변수 혹은 예측변수라고 함
머신러닝에서는 Y는 목표벡터, X는 피처벡터라고 부름
모든 데이터가 정확히 한 직선 안에 들어오기는 어려움
회귀식은 명시적으로 오차항을 포함함
적합값은 예측값을 지칭하는 말
잔차는 원래 값에서 예측한 값을 빼서 구함
회귀선은 잔차들을 제곱한 값들의 합인 잔차제곱합(Residual sum of squares(RSS)를 최소화하는 선
잔차제곱합을 최소화하는 방법을 최소제곱회귀, 보통최소제곱(OLS)회귀라고 함
최소제곱은 특잇값에 민감
예측변수와 결과변수 사이에 있을 것으로 추정되는 선형 관계를 밝히는 것이 회귀분석의 주된 용도
예측 변수가 여러개라면 수식은 이들을 모두 포함하는 형태가 됨
더이상 직선의 형태는 아니지만 각 계수와 그 변수들 사이의 관계는 여전히 선형
데이터 과학 관점에서 가장 중요한 성능 지표는 제곱근 평균제곱오차(RMSE)
전반적인 모델의 정확도를 측정, 다른 모델과 비교하기 위한 기준
RMSE와 유사한 RSE도 있음
전형적인 통계적 회귀 측정 지표들은 모두 표본 내 지표들
모델을 구하는 데 사용했던 데이터를 똑같이 그대로 사용
홀드아웃 샘플 아이디어를 여러 개의 연속된 홀드아웃 샘플로 확장
k 다중 교차타당성 검사(k fold)
어떤 회귀분석에서는 많은 변수를 예측변수로 사용할 수 있음
더 많은 변수를 추가한다고 해서 꼭 더 좋은 모델을 얻는 것은 아님
오컴의 면도날 원리
모든 것이 동일한 조건에서는 복잡한 모델보다는 단순한 모델이 더 좋음
범주형 변수로 불리는 요인변수는 개수가 제한된 이산값을 취함
지표변수라고도 불리는 이진변수는 요인변수의 특수한 경우
회귀분석에서는 수치 입력이 필요하기에 모델에 사용할 수 있도록 요인변수를 수치화해야 함
숫자 값으로 변환하여 그대로 사용 가능
변수 상관이 극단적인 경우 다중공선성이 나타남
예측변수 사이의 중복성을 판단하는 조건
한 예측변수가 다른 변수들의 선형결합으로 표현됨
다중공선성이 사라질 때까지 변수를 제거해야 함
변수 상관은 응답변수와 비슷한 예측 관계를 갖는 다른 변수가 포함되는 바람에 비롯된 문제인 반면, 교란변수는 회귀방정식에 중요한 변수가 포함되지 못해서 생기는 누락의 문제
응답변수와 예측변수 간의 관계가 반드시 선형일 필요는 없음
회귀식에 다항항 포함
3, 4차 다항식과 같이 고차 항을 추가하는 것은 회귀방정식에 바람직하지 않은 흔들림을 초래
고정된 점들 사이를 부드럽게 보간하는 방법
스플라인 항은 매듭을 어디로 할 지 정해줘야 함
일반화가법모형은 스플라인 회귀를 자동으로 찾는 기술
주어진 결과에 대해 예측변수 값을 관찰할 확률을 사용하여 예측변수가 주어졌을 때 결과값의 확률을 추정
예측변수의 개수가 일정 정도로 커지게 되면 분류해야 하는 데이터들은 대부분 서로 완전 일치하는 경우가 거의 없음
나이브 베이즈 방법에서는 확률을 계산하기 위해 정확히 일치하는 레코드로만 제한할 필요는 없음
수치형 예측변수를 비닝하여 범주형으로 변환
조건부확률 추정을 위해 정규분포와 같은 확률모형 사용
초창기 통계 분류방법
선형판별분석(LDA)
트리모델, 로지스틱 회귀와 같은 정교한 기법 출현 이후 크게 사용되지는 않음
주성분분석과 같이 많이 사용되는 다른 방법들과도 연결됨
예측변수들의 중요성을 측정하거나 효과적으로 특징을 선택하는 방법으로도 사용됨
판별분석을 이해하기 위해서는 두 개 이상의 변수 사이 공분산이라는 개념을 도입해야 함
공분산이란 두 변수 사이의 관계를 의미하는 지표
LDA는 실선을 이용해 예측변수 영역을 두 부분으로 나눔
직선에서 멀리 떨어진 예측 결과일수록 신뢰도가 높음
결과가 이진형 변수라는 점만 빼면 다중선형회귀와 유사
로지스틱 회귀는 데이터 위주의 접근 방식이라기보다 구조화된 모델 접근 방식
빠른 계산 속도와 새로운 데이터에 대한 빠른 점수 산정 가능
수많은 모델을 시도해보고 각각에 홀드아웃 표본을 적용하고 성능 평가
정밀도, 재현율, 특이도
재현율과 특이도 사이 트레이드오프 관계
ROC 곡선 아래쪽 면적
높을수록 더 좋은 분류기
다운샘플링, 업샘플링, 데이터 생성
데이터에 기반하며 전체적인 구조를 가정하지 않는다는 점에서 고전적인 통계 방법과 구별됨
특징들이 가장 유사한 K개의 레코드 찾기
유사한 레코드 중 다수가 속한 클래스가 무엇인지 찾은 후 새로운 레코드를 클래스에 할당
유사한 레코드들의 평균을 찾아 새로운 레코드에 대한 예측값으로 사용
회귀와 달리 모델을 피팅하는 과정이 필요하지 않음
표준화 혹은 정규화는 모든 변수에서 평균을 빼고 표준편차로 나누는 과정을 통해 변수들을 모두 비슷한 스케일로 만듬
실제 측정된 값의 스케일 때문에 모델에 큰 영향을 주는 것을 막음
레이블이 달려있는 데이터를 이용해 모델을 학습하는 과정 없이 데이터로부터 의미를 이끌어내는 통계적 기법들을 의미
클러스터링, 차원 축소 등
수치형 변수가 어떤 식으로 공변하는지 알아내는 기법
다수의 수치형 예측변수들을 더 적은 수의 변수들의 집합으로 나타내는 것
새로운 변수들은 원래 변수들에 가중치를 적용한 선형결합을 의미
전체 변수들의 변동성을 거의 대부분 설명할 수 있는 적은 수의 변수들의 집합을 주성분이라 함
데이터를 서로 다른 그룹으로 분류하는 기술