AI 엔지니어 기초 다지기 - 4주차 - 확률론 맛보기

hyonun·2024년 2월 11일

AI 엔지니어 기초다지기

목록 보기

10/25

확률론을 배워야하는이유 ?

딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고있다.

기계학습에서 사용되는 손실함수 ( loss function)들의 작동원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다.

회귀 분석에서 손실함수로 사용되는 L2노름은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다.

분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화 하는 방향으로 학습하도록 유도된다.

분산 및 불확실성을 최소화 하기 위해서는 측정하는 방법을 알아야한다.

-> 그래서 확률론을 알아야 기본적으로 딥러닝이 어떻게 학습하고 측정하는지 알 수 있다.

확률 분포

데이터 공간을 X x Y 라 표기하는데 D는 데이터 공간에서 데이터를 추출하는 분포다.
이 데이터를 추출할 때 확률변수어떤 확률 실험의 결과를 나타내는 변수(주사위 굴릴때 나오는 눈의 수, 앞면이 나올 횟수를 나타내는 변수)를 사용한다.

확률 변수

확률변수는 확률 분포에 따라 이산형(discrete), 연속형(continuous)확률변수로 구분하게 된다.
확률분포의 종류에 따라 구분한다.

이산확률변수 vs 연속확률변수

이산형 확률변수 : 확률 변수가 가질수 있는 모든 경우의 수를 고려하여 확률을 더해 모델링한다.
연속형 확률변수 : 데이터공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링한다.

밀도는 누적확률분포의 변화율을 모델링하며 확률로 해석하면 안된다.

데이터가 얼마나 밀집해있는지를 보여주는 척도지, 여기에 45% 확률로 데이터가 들어간다 라는말은 아니다.

결합분포 : P(x,y) 데이터의 분포를 나타낸다.
이 결합분포 P(x,y)는 x에대한 주변확률분포로 y에 대한 정보를 주진 않는다.
x에 따른 빈도를 보여주는것이지 Y에 따라 구별이 되는것이아니다.

그래서 데이터 공간에서 데이터입력 x와 출력 y사이의 관계를 모델링한다.

p(x|y=1) 이라면 y=1일때의 x데이터 분포만 보여준다.

이걸 조건부 확률 분포라고 부른다.

조건부 확률

조건부 확률은 입력변수 x에 대해 정답이 y일 확률을 의미한다.
연속확률 분포 p(y|x)는 밀도로 해석한다.

연속확률 분포 : x가 존재하는 밀도를 표시
조건부 확률 : y일 확률

회귀 문제의 경우 조건부기대값 E[y|x]을 추정한다.
적분y*p(y|x)dy
조건부 기대값을 사용하는 이유는 L2노름을 최소화하는 함수와 일치한다.
그래서 조건부기대값을 사용하는 이유는 목적값으로하는 L2노름을 최소화하는 함수이기 때문이다.

기대값

기대값 = 평균 = mean
기계학습에서 기대값은 평균이 아닌, 목적으로 하는 주어진 함수의 데이터를 대표하는 통계량이면서 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다.
확률 분포의 중심을 나타내며 해당 분포의 대표적인 값으로 사용된다.
그 값들이 나타날 것으로 기대되는 평균적인 결과를 나타낸다.

주로 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.
딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴 q를 추출한다.

몬테카를로 샘플링

기계학습은 확률분포를 명시적으로 모를때가 일반적이다.
즉 데이터를 모를때 실행된다. 이때 사용되는게 몬테카를로 샘플링이다.
만약 확률분포를 명시적으로 모르는 상황에서 샘플링하는 방법을 알고있으면 기대값을 계산해 볼 수있다. x자리에 샘플링한 데이터를 넣어주고 산술평균값을 넣어서 몬테카를로 샘플링을 하면 우리가 구하려고 하는 확률분포와 근사 하게 기대값을 구할 수 있다.

통계학에서 굉장히 많이 사용된다.

샘플링은 독립추출만 보장된다면 대수의 법칙에 의해 수렴성을 보장한다.
샘플이 독립적으로 추출되고 이 샘플들의 평균이 존재할때 이 평균이 전체 분포의 평균에 수렴한다는 원리. 즉 샘플의 수가 충분히 많고 독립적으로 추출된다면 샘플들의 평균은 전체 분포의 평균에 가까워진다.
-> 내방식으로 예를 들면, 학교에서 한 반의 수학점수 평균을 보면, 전체 학교의 수학점수 평균과 가깝다로 볼 수 있다.