통계 및 선형대수 개념 정리

샘2·3일 전
0

서론

최근 1년동안 진행하며 많은 고생을 한 애증의 프로젝트가 마무리되고 곧바로 대학원 면접준비로 여유가 없었습니다. 저번 주차 글또는 패스권을 사용하였고 이번 주차는 늦게나마 글을 작성하고 있습니다.
글의 주제를 고민하던 중 면접 준비를 위한 통계 및 수학 이론을 정리하려고 합니다.

선형대수

Det의 의미

행렬식은 정방행렬에 대해 정의되는 값으로 , 행렬의 선형 변환 특성을 나타내는 중요한 지표이다.
행렬식이 0이 아닌경우 역행렬이 존재하며, 반대로 행렬식이 0인 경우 역행렬이 존재하지 않고 행렬의 열 벡터 또는 행 벡터가 선형 종속인 것을 나타낸다.
요약: 행렬식은 선형 변환 특성을 수치적으로 요약한 값으로, 역행렬의 존재여부, 고유값 문제, 기하학적 의미에서 공간 변형을 이해하는 데 중요한 도구이다.

내적과 외적

내적(Dot product)
정의 : 두 벡터 a와 b의 내적은 하나의 스칼라 값을 생성하며, 이는 두 벡터의 방향과 크기 사이의 관계를 나타낸다.

의미

  • 두 벡터가 같은 방향일 때 내적은 최대값을 간다.
  • 두 벡터가 수직일 때 내적은 0인된다.
  • 두 벡터가 반대 방향일 때 내적은 음수가 된다.

외적(Cross Product)
정의 : 두 벡터 a와 b의 외적은 새로운 벡터 c를 생성하며, 이 벡터는 a와 b가 이루는 평면에 수직한다.
의미

  • 내적은 스칼라 값으로 표현되고 외적은 벡터로 표현된다.
  • 두 벡터가 이루는 면적이나 부피를 계산한다.

linear metrics에서 independent의 의미(선형독립)

선형독립성이란 벡터들이 선형 독립적이라는 것은 그 집합의 어느 벡터도 다른 벡터들의 선형 조합으로 표현될 수 없음을 의미한다. c1v1 +cnvn = 0이라는 식이 성립해야 하며 cn은 모두 0이어야만 한다. 그렇지 않은 경우 선형 종속(linear combination)이다.

RANK

행렬에서 Rank는 선형적으로 독립적인 행 또는 열 벡터의 최대 개수를 의미한다. 즉 행렬이 몇 차원의 공간을 생성할 수 있는지 나타낸다.

고유값, 고유벡터(eigenvalue, eigenvector)

고유벡터(eigenvector)는 어떤 행렬이 변환을 가했을 때 방향이 변하지 않는 벡터를 의미한다. 크기는 변할 수 있지만 방향은 고정된다.

고유값(eigenvalue)은 고유벡터가 변환될 때 크기가 얼마나 변화했는지를 나타내는 스칼라

고유값 분해

고유값 분해는 정방행렬을 고유값과 고유벡터를 이용해 분해하는 기법이다. 대각화가 가능할때만 사용할 수 있으며 고유벡터들이 선형 독립일때 가능합니다. A = VAV-t 형태로 분해하며 V는 고유벡터들로 구성된 행렬, A는 고유값들이 대각선에 있는 대각행렬, V-t는 V의 역행렬이다.

convariance martix

공분산 행렬은 다차원 데이터에서 각 변수 간의 관계를 나타내는 대칭 행렬입니다. 이는 데이터의 분산과 변수 간 공분산을 정리한 형태로 데이터의 분포와 상관 구조를 분석할 때 사용됩니다.

  • 공분산이란 두 변수 간의 상관 정도를 측정하는 값으로 두 변수가 같은 방향으로 변할 때 양수, 반대 방향으로 변할 때 음수, 독립적일 때 0이 된다. 공분산 행렬은 이러한 공분산 값을 모든 변수쌍에 대해 계산하여 p개의 특성을 가진 데이터에 대해 p * p 크기의 행렬로 표현한다.

SVD

선형대수에서 임의의 m * n 행렬을 세개의 행렬의 곱으로 분해하는 기법입니다. A = UΣV^T로 표현되며 U는 M x M 크기의 직교 행렬로 A의 열공간(Column Space)를 나타낸다. Σ는 M x N 크기의 대각 행렬로, 대각선 원소는 A의 특이값(Singular Values)이다. A 데이터의 분산을 나타내며 고유값의 제곱근으로 구할 수 있다. V^T는 N x N 크기의 직교 행렬로, A의 행 공간을 나타낸다.

  • 종합적으로, A의 열공간 A의 고유값의 제곱근(특이값) A의 행공간 표현된다.

PCA

PCA는 데이터를 저차원으로 변환하면서 중요한 정보를 최대한 유지하는 차원 축소 기법입니다. 데이터의 분산을 가장 잘 설명하는 새로운 축을 찾아 데이터를 변환하며, 데이터 압축, 시각화, 노이즈 제거 등 다양한 목적으로 사용됩니다.

PCA 의 절차
1. 공부산 행렬 계산 : 데이터의 분산과 특성 간의 상관성을 나타내는 공분산 행렬을 계산한다.
2. 고유값 분해: 계산된 공부산 행렬을 고유값 분해하거나 특이값 분해하여 고유값과 고유벡터를 구한다. 여기서 고유값은 각 주성분이 설명하는 데이터 분산의 크기를 나타내고 고유벡터는 새로운 축을 의미한다.
3. 주성분 선택 : 가장 큰 고유값에 해당하는 주성분부터 선택하여 데이터를 변환합니다. 설명가능한 분산 비율을 기준으로 주성분 개수를 결정

통계

독립확률

독립 확률이란 두 사건 A와 B가 서로 영향을 주지 않는 관계를 말합니다. 즉, 한 사건의 발생 여부가 다른 사건의 발생 확률에 전혀 영향을 미치지 않을 때 두 사건을 독립적이라고 합니다.

수학적으로 두 사건 A와 B가 독립일 조건은

P(A∩B) = P(A) P(B)

여기서 P(A∩B)는 A와 B가 동시에 발생할 확률이고 P(A),P(B)는 각각 개별 확률이다. 이는 A와 B가 동시에 발생할 확률과 각 사건의 개별 확률을 곱한 값과 같으면 독립을 의미한다.

p_value

P-value은 토계적 가설 검정에서 사용되는 지표로, 귀무가설이 참이라고 가정했을 때, 관찰된 데이터 또는 그보다 극단적인 결과가 나올 확률을 의미합니다.

P-value을 통해 데이터가 귀무가설과 얼마나 일치하는지 평가할 수 있으며, 이를 기반으로 귀무가설을 기각할지 여부를 판단합니다.

회귀분석

회귀분석 정의

  • 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
  • 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법
profile
부지런한 개발자가 되고싶은

0개의 댓글