데이터 분석 Study -07

이성현·2023년 1월 13일
0

선형회귀분석

머신러닝 관점에서 선형회귀식을 잘 만든다는 것은, '오차'를 줄인다는 것이다.
경사하강법 : minimize MSE . cost function이 최소화 되는 지점.

  • 전체 데이터 세트에 대해 모든 가능한 value의 손실 함수를 계산하는 것은 비효율적이다.
  • 임의의 시작점에서 손실 곡선의 기울기를 계산
  • 기울기가 감소하는 방향으로 이동 후 다시 손실 곡선의 기울기를 계산
  • 일정한 보폭, 점차 감소하는 보폭으로 이동과 기울기 계산 반복. (보폭은 Learning Rate, 일반적으로 5%, 0.05).

다중공선성 : 독립변수들 간에 상관관계가 존재하는 상태로, 다중공선성이 있을 땐 독립변수와 종속변수 간의 영향 정도를 정확히 산출하지 못하는 현상이 나타난다.

  • VIF(Variation Index Factor)가 10이상인 설명변수로 확인한다. 한 설명 변수를 y변수로 하고, 나머지 설명변수를 x변수로 놓고 회구분석한 뒤, 1/1-R²를 구한 값이다.
  • 주성분 분석(Principal Component Analysis)를 통해 추출된 서로 독립인 주성분을 사용해 회귀분석을 수행한다.

명목형 변수 처리 : one-hot encoding을 사용시 Dummy Variable을 활용한다.

로지스틱 회귀분석

Classification: Supervised Learning의 일종으로, 입력 데이터에 존재하는 Feature값들과 label값의 class 간의 관계를 학습하여 새로 관측된 데이터의 class를 예측하는 문제이다. 여기서 분류는 '이진분류'이다. 일반선형회귀를 로그화 한 것이 로지스틱 선형회귀이다.

  • 어느 고객이 떠나갈 것인가?
  • 이 직원이 퇴사할 것인가?

로지스틱 회귀 분석에서 가장 중요한 것은 종속변수 y를 확률로 보는 것이다.

  • y값을 확률로 보되, 기본 임계값(threshold)은 0.5이다. -- 임계값을 낮추면, 민감도(Recall)가 높아져서 오분류가 높아지더라도 Y=1인 경우를 최대한 분류한다.
    -- 임계값을 높이면, precision이 높아져 알파 오류를 최소화하는 경향이 있다.
  • 비용함수는 Maximize Likelihood, Minimize Cross-entropy.


로지스틱 회귀는 독립변수 x가 증가할 때 승산의 로그를 씌운 값만큼 변화한다.

profile
삼성전자 C-Lab 21기 Creative Leader SW개발자 (쪼랩)

0개의 댓글