데이터 공간: 𝒳×𝒴, 확률분포: 𝒟
이산확률변수
확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링
연속확률변수
데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링
조건부확률
기대값
데이터를 대표하는 통계량
이산확률변수일 경우
연속확률변수일 경우
기계학습의 많은 문제들은 확률분포를 모를 때가 대부분
확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로 샘플링 방법 사용
독립추출만 보장된다면 대수의 법칙에 의해 수렴성 보장
이론적으로 가장 가능성이 높은 모수를 추정하는 방법
데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도를 최적화
Why 로그가능도?
딥러닝에서 사용
one-hot vector로 표현한 정답레이블 y을 관찰 데이터로 이용해 확률분포인 softmax vector의 로그 가능도를 최적화할 수 있다.
확률분포의 거리 구하기 (방법)
시각화
정밀도
정보의 갱신
조건부 확률은 인과관계를 추론할 때 함부로 사용해서는 안된다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요
중첩요인 (confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계 계산
각 뉴런들이 선형모델과 활성함수로 모두 연결된(fully connected) 구조
커널(kernel)을 입력 vector 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조
수학적 의미: 신호를 커널을 이용해 국소적(local)으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링하는 것
1차원뿐만 아니라 다양한 차원에서 계산 가능
입력 크기 (H, W), 커널 크기 (Kh, Kw), 출력 크기(Oh, Ow)
역전파 (backpropagation)
convolution 연산은 커널이 모든 입력 데이터에 공통으로 적용되기 때문에 역전파를 계산할 때도 convolution 연산이 나온다.
소리, 문자열, 주가 등의 데이터
독립동등분포(i.i.d) 가정을 잘 위배하기 때문에 순서를 바꾸거나 과거 정보에 손실이 발생하면 데이터의 확률분포도 바뀌게 된다.
조건부확률 이용
길이가 가변적인 데이터를 다룰 수 있는 모델이 필요
이전 순서의 잠재변수와 현재의 입력을 활용하여 모델링
역전파 (backpropagation)
backpropagation through time (BPTT)라 한다.
잠재변수의 연결그래프에 따라 순차적으로 계산
기울기 소실의 해결책