OCR은 2단계로 이루어진다
ocr 모델
이미지의 특징 중에서 글자 예측에 유용한 정보를 자동으로 추출할 수 있다는 장점이 있다.(featur extraction). 인공신경망에 이러한 방식을 유사하게 구현한 것이 cnn이다. 커널에 따라 이미지 내 특정 속성에 의 자극에 강하게 반응하며 형태 정보를 반영하고 추출된 특징에 따라 모델이 파라미터를 학습
CNN의 제한된 수용장의 범위를 확장시켜서 이미지로부터 더 좋은 특징들을 추출할 수 있게 한다. CNN의 경우 전체 이미지 중 특정 부분만 반영하기 때문에 전체 이미지에 대한 정보를 담을 수 없다는 한계가 있다. 주변의 다른 글자 정보들을 종합적으로 이용해서 해당 글자의 예측을 높이는 방향으로 모델 튜닝이 가능하다.
교재 491
순환 신경망은 일반적인 완전 연결 신경망과 거의 비슷하다. 완전 연결 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가하면 된다.
뉴런의 출력이 다시 자기 자신으로 전달. 샘플을 처리할 때 바로 이전에 사용했던 데이터를 재사용
합성곱 신경망과 같은 피드포워드 신경망에서 뉴런은 입력과 가중치를 곱한다. 순환 신경망에서도 동일하다. 다만 순환 신경망의 뉴런은 가중치가 하나 더 있다. 바로 이전 타임스텝의 은닉 상태에 곱해지는 가중치이다. 셀은 입력과 이전 타임스텝의 은닉 상태를 사용하여 현재 타임스텝의 은닉 상태를 만든다.
순환층은 일반적으로 샘플마다 2개의 차원을 가진다.
Recurrent Neural Networks(RNN)과 RNN의 일종인 Long Short-Term Memory models(LSTM)