4-1 확률론 맛보기 냠

마친자·2024년 2월 6일

[부스트코스]AI 엔지니어 기초 다지기

목록 보기

12/22

딥러닝에서 왜 확률론이 필요한가?

확률분포는 데이터의 초상화

데이터공간 $x$ x $y$ 라 표기하고 $D$ 는 데이터 공간에서 데이터를 추출하는 분포
- D는 이론적으로 존재하는 확률분포이기 때문에 사전에 알 수 없습니다.
데이터는 확률변수로 $(x,y)$ ~ $D$ 라 표기
확률변수는 확률분포 $D$ 에 따라 이산형과 연속형 확률변수로 구분하게 됨
- 데이터공간 $x$ x $y$ 에 의해 결정되는 것으로 오해하지만 $D$ 에 의해 결정된다
결합분포 $P(x,y)$ 는 $D$ 를 모델링합니다.
- 원래 확률분포와 상관없이 결합분포가 이산형 또는 연속형으로 결정(모델링에 따라 달라짐)
$P(x)$ 는 입력x에 대한 주변확률분포로 x에 대한 정보를 주지만 y에 대한 정보를 주진 않습니다.
- x에 대해서 덧셈을 해주거나 x에 대한 적분한다면 y에 대한 주변확률분포를 구할수 있음
조건부확률분포 $P(x|y)$ 는 데이터공간에서 입력x와 출력y의 관계를 모델링합니다
$P(x|y)$ 는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여줌

이산확률변수 VS 연속확률변수

조건부확률과 기계학습

조건부확률 $P(y|x)$ 는 입력변수x에 대해 정답이 y일 확률을 의미합니다.
- 연속확률분포의 경우, $P(y|x)$ 는 확률이 아니고 밀도로 해석한다는 것
로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용
분류 문제에서 softmax(WΦ +b)은 데이터 x로부터 추출된 특징패턴 Φ(x) 과 가중치행렬W을 통해 조건부확률 $P(y|x)$ 를 계산합니다.
- = $P(y|Φ(x))$
- 조건부기댓값을 사용하는 이유: 회귀문제의 경우 L2-노름기댓값을 사용하는데 조건부기댓값은 L2-노름기댓값을 최소화하는 함수와 일치
딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴Φ을 추출합니다
- 특징패턴을 학습하기 위해 어떤 손실함수를 사용할지는 기계학습 문제와 모델에 의해 결정된다.