공부

HA_·2024년 3월 11일

정규화

  • 데이터를 1에서 5까지의 범위로 정규화하는 것은 일반적으로 Min-Max 정규화(Min-Max scaling)라고 불립니다.
  • Min-Max 정규화는 데이터의 최솟값과 최댓값을 이용하여 데이터를 새로운 범위로 변환하는 방법 중 하나입니다.

구조방정식 모델

  • 여러 변수 간의 관계를 동시에 분석하는 복잡한 통계 기법 중 하나입니다.

경로계수

  • 독립 변수가 종속 변수에 미치는 직접적인 영향의 크기를 나타내는 계수

  • 쉽게 말해, 한 변수의 변화가 다른 변수에 얼마나 영향을 미치는지를 수치로 표현한 것입니다.

  • 경로계수는 보통 회귀계수와 유사한데, 이는 변수 간의 직접적인 관계만을 나타내며, 경로계수의 값은 표준화된 값(표준화 경로계수)일 수도 있고, 그렇지 않을 수도 있어요(비표준화 경로계수).

  • 구조방정식 모델(Structural Equation Modeling, SEM)이나 회귀분석 같은 통계 모델에서 사용되는 용어 중 하나

특정 간접 효과의 P-value가 0.1이라는 것

  • 구조방정식 모델이나 회귀분석 등에서 어떤 독립변수가 종속변수에 미치는 간접적인 영향력의 통계적 유의성을 검정한 결과를 의미

  • P-value가 0.1이라는 것은, 귀무가설(변수 간에 간접 효과가 없다는 가설)을 기각할 증거가 상대적으로 약하다는 것을 나타냅니다.

  • 일반적으로 P-value가 0.05 또는 그 이하일 때, 결과를 '통계적으로 유의미하다'고 해석합니다.

  • 따라서 P-value가 0.1인 경우, 간접 효과가 통계적으로 유의미하다고 보기 어렵지만, 완전히 무시할 수 없는 가능성을 내포하고 있다고 할 수 있어요.


시계열 분석

  • 특정 시간 간격으로 측정된 데이터를 분석하는 통계적인 방법론을 의미
  • 시계열 분석은 시간에 따라 변화하는 패턴, 트렌드, 계절성 등을 파악하고 이를 기반으로 미래 값을 예측하거나 특정 이벤트의 영향을 분석하는 데 활용됨.

Gradient Boosted Tree 모델

  • 여러 개의 결정 트리(Decision Tree)를 조합하여 강력한 예측 모델을 만드는 앙상블 기법 중 하나

  • 예측 성능이 높고 과적합에 강한 특성을 가지고 있어 다양한 분야에서 널리 사용됩니다.

  • Gradient Boosted Trees의 작동 원리는 다음과 같습니다
    첫 번째 트리 학습 -> 오차에 대한 두 번째 트리 학습 -> 이러한 과정을 반복 -> 앙상블 모델 구성

앙상블(Ensemble) 기법

  • 여러 개의 모델을 결합하여 단일 모델보다 더 강력하고 안정적인 예측을 수행하는 머신 러닝 기법입니다.
  • 앙상블은 여러 다양한 모델의 예측을 종합함으로써 특정 모델의 약점을 보완하고 성능을 향상시킬 수 있습니다.
  • 대표적인 앙상블 기법으로는 다음과 같은 것들이 있습니다.
  1. 보팅(Voting) 앙상블
  2. 배깅(Bagging) 앙상블
  3. 부스팅(Boosting) 앙상블

윈도잉(Windowing)

  • 시계열 데이터를 작은 윈도우(부분 시계열)로 나누어 각 윈도우에 대한 분석을 수행하는 기술

  • 각 윈도우는 연속적인 시간 범위를 가지며, 예를 들어 1일부터 7일까지의 데이터를 포함하는 주간 윈도우 등이 있을 수 있습니다.
    이렇게 나눈 윈도우에서는 해당 기간 동안의 통계량, 평균, 분산, 계절성 패턴 등을 파악하여 시계열 데이터에 내재된 패턴을 이해하고 모델을 구축할 수 있습니다

  • 윈도잉을 사용하면 시계열 데이터의 복잡한 패턴을 더 잘 이해하고 모델을 더 효과적으로 구축할 수 있습니다. 이를 통해 미래의 값 예측이나 이상치 감지 등을 수행할 수 있습니다.

0개의 댓글