[47일차]선형 회귀와 선형 분류_선형의미

김준석·2024년 1월 30일

선형 회귀와 선형 분류_선형의미

선형의 의미

선형 관계란

과자(가격 1,500원)와 우유(1,200원)를 사기위해 마트에서 장을 본다고 가정 해보자
• 전체 구매 비용(TotalCost)은 아래와 같은 관계를 만족
TotalCost = num(snack)1500 + num(milk)1200

• [조건] 물건 가격 할인과 서로 다른 물건끼리의 가격 영향은 없음

  • 전체 비용은 구매하는 과자와 우유의 수(num)에 영향을 받음

    • 과자 수의 증가는 전체 비용에 영향을 미침
    • 즉, 과자 수의 변화가 특정한 비율로 전체 비용에 영향을 미치고 있음
    • 우유의 수도 마찬가지
  • 이처럼 독립 변수( num(snack), num(milk))가 파라미터(1,500원, 1,200원) 값 만큼 일정한 비율로
    결과 종속 변수(TotalCost)에 영향을 미치는 관계를 선형 관계라 함

선형 결합과 선형 모델

  • 앞서 본 방식처럼 파라미터들이 어떠한 실수(혹은 벡터)와 가중 합(곱하기 & 더하기)으로 표현된 것을 선형 결합이라고 함

  • 선형 결합을 일반적으로 표현하면 아래와 같음
    w1x1 + w2x2 + … + wnxn

  • x1…xn : 독립 변수 혹은 특징(feature), 보통 입력하는 데이터를 의미

  • w1…wn : 파라미터, 찾아내야 하는 값

  • 파라미터들이 선형 결합을 이루고,
    이것으로 종속 변수의 값을 표현할 수 있을 때
    이것을 선형 모델이라고 함
    y = w1x1 + w2x2 + … + wnxn
    • y : 종속 변수
    • 이 선형 모델을 그래프로 표현한다면 직선(in 2D) 혹은 평면(in 3D) 혹은 초평면(Hyper-plane, over 4D)이라고 함

선형 의미에서의 흔한 질문

선형과 비선형을 구분하는 큰 기준은 종속 변수가 파라미터에 대해 선형적 인지 혹은 비선형적 인지에 따라 다름

위 모델은 선형일까 비선형일까?

선형 모델을 학습한다는 것은

종속 변수가 어떠한 값을 갖게 되려면 파라미터의 값이 설정이 되어야 함

TotalCost = num(choco)1500 + num(milk)1200

  • 초코 과자가 3개, 우유가 2개라면..(종속변수)

    • 전체 금액은 6,900원
  • 그런데, 머신러닝 입장에서 모델을 학습 시키는 것은
    특정한 제약 조건이 주어진 상태에서 파라미터의 적절한 값을 찾는 것!
    - 그 상태란, 보통 Loss를 줄이는 최적의 상태
    - 혹은 성능이 제일 높아지는 상태

  • 물론 위 식에서는 편의상 파라미터를 1,500과 1,200으로 고정해 둠!

  • 우리가 적절한 값을 찾아야 하는 변수라는 의미로 파라미터(parameter)라고 부름

  • 그러한 파라미터는 여러 데이터를 바탕으로 최적의 값을 찾아가야 함

선형 모델의 가정

  • 이 선형 모델은 매우 중요한 가정이 있다.
    • 독립 변수가 “독립” 변수라는 이름을 갖듯 서로 다른 독립 변수는 서로 상관성이 없어야 함
  • 만약 두 독립 변수 사이에 높은 상관관계(correlation)이 있다면,
    다중공선성(multicollinearity)이라는 문제를 일으키게 됨 (이후에 자세히 다룸)
  • 이렇게 된다면 정확도와 신뢰성에 저하가 일어남!
    또한, 해석력에도 복잡성이 증가
  • 어느 정도의 상관관계가 있을 순 있지만,
    이 정도가 너무 크다면 추후에 배우게 될 다른 모델을 선택하는 것이 좋은 방법

0개의 댓글