OCR

ganadara·2022년 12월 22일
0

project

목록 보기
2/9

OCR은 2단계로 이루어진다

  • Text detection + Text recognition
  • 글자 위치를 찾고 + 어떤 글자인지 인식하자.

ocr 모델

  1. 합성곱 신경망(cnn)
  2. 순환 신경망(rnn)
  3. ctc 알고리즘

CNN

이미지의 특징 중에서 글자 예측에 유용한 정보를 자동으로 추출할 수 있다는 장점이 있다.(featur extraction). 인공신경망에 이러한 방식을 유사하게 구현한 것이 cnn이다. 커널에 따라 이미지 내 특정 속성에 의 자극에 강하게 반응하며 형태 정보를 반영하고 추출된 특징에 따라 모델이 파라미터를 학습

RNN

CNN의 제한된 수용장의 범위를 확장시켜서 이미지로부터 더 좋은 특징들을 추출할 수 있게 한다. CNN의 경우 전체 이미지 중 특정 부분만 반영하기 때문에 전체 이미지에 대한 정보를 담을 수 없다는 한계가 있다. 주변의 다른 글자 정보들을 종합적으로 이용해서 해당 글자의 예측을 높이는 방향으로 모델 튜닝이 가능하다.

  • 교재 491

    순환 신경망은 일반적인 완전 연결 신경망과 거의 비슷하다. 완전 연결 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가하면 된다.

뉴런의 출력이 다시 자기 자신으로 전달. 샘플을 처리할 때 바로 이전에 사용했던 데이터를 재사용

합성곱 신경망과 같은 피드포워드 신경망에서 뉴런은 입력과 가중치를 곱한다. 순환 신경망에서도 동일하다. 다만 순환 신경망의 뉴런은 가중치가 하나 더 있다. 바로 이전 타임스텝의 은닉 상태에 곱해지는 가중치이다. 셀은 입력과 이전 타임스텝의 은닉 상태를 사용하여 현재 타임스텝의 은닉 상태를 만든다.

순환층은 일반적으로 샘플마다 2개의 차원을 가진다.

Recurrent Neural Networks(RNN)과 RNN의 일종인 Long Short-Term Memory models(LSTM)

profile
DL 공부중

0개의 댓글