[통계학]TIL 30일차

Cherta·2024년 7월 16일
0

자료형

  • 질적(Qualitative)자료 : 사칙연산이 불가한 자료 범주형(Categorical)이라고도 함
    • 명목형(Nominal) : 이름, 성별과 같이 위계나 순서가 없는 자료
    • 순서형(Ordinal) : 학년, 별점과 같이 순서가 있지만 사칙연산이 적용되기 어려운 자료
  • 양적(Quantitative )자료 : 사칙연산이 가능한 자료
    • 연속형(Continuous) : 길이나 무게처럼, 분절 되지 않고 연속적인 수치형 자료
    • 이산형(Discrete) : 개수와 같이 연속적이지 않은 수치형 자료

독립 변수와 종속 변수

  • 종속 변수(Dependent variable)
    우리가 예측 혹은 설명하고자 하는 변수
    반응 변수, 표적 변수, 예측 변수 등이라고도 함

  • 독립 변수(Independent variable)
    종속 변수를 예측/설명하는 데 활용 하는 변수
    Predictor, 설명 변수, 요인(Factor), 피쳐(Feature) 등으로도 부름

  • 데이터에서 두 변수가 반드시 정해져있는 것은 아님

선형회귀(Linear Regression)

선형 상관 관계

  • 두 수치형 자료 사이의 관계로 피어슨(Pearson) 상관 관계라고도 함
  • 선형 상관 관계는 -1 ~ 1 사이의 수치로 둘 사이의 관계를 파악

회귀 모형

  • 선형 회귀는 데이터를 가장 잘 설명하는 다음의 수식을 만드는 것
    • 이때 X와 Y는 주어진 데이터이며 b0b_0b1b_1을 찾는 것이 우리의 과제

모형 평가(Goodness of fit)

  • 오차인 SSE를 최소화
  • 위의 수식에서 보이는 R2R^2를 결정계수라 하며, 모형의 성능을 평가하는데 사용
    • R2R^2는 0과 1 사이의 값을 가지며, 1에 가까울수록 좋음
    • 단순 선형 회귀에 한해, 위에서 봤던 선형 상관관계를 제곱한 값과 R2R^2는 동일
    • R2R^2는 모델이 얼마나 종속 변수의 변동을 잘 설명하는지로 해석할 수 있음
  • 통계적 유의성은 F검정으로 확인
    • 이때의 F검정은 ANOVA의 F검정과 완벽하게 동일
    • b1b_1에 대해서는 t 검정을 할 수 있는데, 이 또한 F검정과 완벽하게 같음

0개의 댓글