OCR

ganadara·2022년 12월 22일

CNN LSTM OCR RNN

project

목록 보기

2/9

OCR은 2단계로 이루어진다

Text detection + Text recognition
글자 위치를 찾고 + 어떤 글자인지 인식하자.

ocr 모델

합성곱 신경망(cnn)
순환 신경망(rnn)
ctc 알고리즘

CNN

이미지의 특징 중에서 글자 예측에 유용한 정보를 자동으로 추출할 수 있다는 장점이 있다.(featur extraction). 인공신경망에 이러한 방식을 유사하게 구현한 것이 cnn이다. 커널에 따라 이미지 내 특정 속성에 의 자극에 강하게 반응하며 형태 정보를 반영하고 추출된 특징에 따라 모델이 파라미터를 학습

RNN

CNN의 제한된 수용장의 범위를 확장시켜서 이미지로부터 더 좋은 특징들을 추출할 수 있게 한다. CNN의 경우 전체 이미지 중 특정 부분만 반영하기 때문에 전체 이미지에 대한 정보를 담을 수 없다는 한계가 있다. 주변의 다른 글자 정보들을 종합적으로 이용해서 해당 글자의 예측을 높이는 방향으로 모델 튜닝이 가능하다.

교재 491

순환 신경망은 일반적인 완전 연결 신경망과 거의 비슷하다. 완전 연결 신경망에 이전 데이터의 처리 흐름을 순환하는 고리 하나만 추가하면 된다.

뉴런의 출력이 다시 자기 자신으로 전달. 샘플을 처리할 때 바로 이전에 사용했던 데이터를 재사용

합성곱 신경망과 같은 피드포워드 신경망에서 뉴런은 입력과 가중치를 곱한다. 순환 신경망에서도 동일하다. 다만 순환 신경망의 뉴런은 가중치가 하나 더 있다. 바로 이전 타임스텝의 은닉 상태에 곱해지는 가중치이다. 셀은 입력과 이전 타임스텝의 은닉 상태를 사용하여 현재 타임스텝의 은닉 상태를 만든다.

순환층은 일반적으로 샘플마다 2개의 차원을 가진다.

Recurrent Neural Networks(RNN)과 RNN의 일종인 Long Short-Term Memory models(LSTM)

ganadara

DL 공부중

이전 포스트

craft

다음 포스트

OCR

project

CNN

RNN

craft

dart open api 증권신고서 요약

0개의 댓글