- 초기 HP 연구소는 개발 문자인식(OCR)으로 개발됨
- C언어와 C++을 혼합하여 만들었으나, 현재 C++통합
- 2000년 초반 HP로부터 지원 중단되어 프로젝트가 없데이트였으나, 2006년 이후 우리의 갓 구글이 다시 지원해줘서 업데이트를 시작했다.
- Tesseract 3.x 단순 알고리즘을 통한 문자 인식
- Tesseract 4.x 부터 학습 기반으로 딥러닝 알고리즘 적용
- 적용된 알고리즘 LSTM
- 최근 딥러닝 기술들은 학습데이터를 기반으로 정확도를 높이는 방법을 활용
- Tesseract는 문자인식을 위한 학습한 데이터 제공
https://github.com/tesseract-ocr/tessdata_best
우선 위 링크를 들어간다
kor.traineddata : 가로로 작성된 문자 인식용 학습모델
kor_vert.traineddata : 세로로 작성된 문자인식용 학습모델
두개를 다운로드
모두 다운로드 받았으면 C:\model\tessdata 폴더에 저장하자.