[ML] 10주차-2 : 온라인 학습, Map-reduce

k_dah·2022년 1월 3일
0

MachineLearning_AndrewNg

목록 보기
30/32

Machine Learning by professor Andrew Ng in Coursera

Advanced Topics

1) Online Learning

온라인 학습 알고리즘은 실시간으로 유입되는 데이터를 모델링하고 학습한다.
고정된 훈련 세트라는 개념이 없다.
지속적으로 새롭게 유입되는 데이터로 학습을 하고, 학습을 했다면 해당 샘플은 폐기한다.
데이터가 지속적으로 계속 유입된다면 충분히 새로운 데이터를 확보할 수 있기 때문에 한 번 사용했던 샘플은 다시 사용하지 않는다.
온라인 학습 알고리즘은 연속적인 데이터 스트림이 발생하는 환경에서 매우 효과적이다.

Can adapt to changing user preference.
Can keep track of changes

유입되는 데이터의 변화에 따라 자동으로 파라미터를 조정한다.

  • CTR(click-through rate)
    실제 예측 클릭률

온라인 학습 알고리즘은 확률적(Stochastic) 경사 하강법 알고리즘과 매우 유사하다.
하지만 이때 온라인 학습의 경우 고정된 데이터가 아닌 새롭게 유입되는 샘플 데이터 1개씩으로 훈련을 하며 한 번 사용한 샘플은 폐기한다.

2) Map Reduce and Data Parallelism

Map-reduce


  • 훈련 세트를 쪼갠다.
  • 쪼갠 각 훈련 세트들을 서로 다른 컴퓨터로 보낸다.
    (또는 컴퓨터 한 대 내에서 각각 다른 core로 보낸다. 이 경우에는 네트워크 지연율은 고려하지 않아도 된다.)
    각 컴퓨터들은 연산을 수행한다.
  • 각 컴퓨터들의 연산 결과를 하나의 중앙 서버로 보낸다.

병렬화

Map-reduce and summation over the training set


Q.
Suppose you apply the map-reduce method to train a neural network on ten machines. In each iteration, what will each of the machines do?
: Compute forward propagation and back propagation on 1/10 of the data to compute the derivative with respect to that 1/10 of the data.

profile
개똥이

0개의 댓글