https://github.com/yunwoong7/korean_ocr_using_pororo
pip install torch torchvision
183 pip install pororo
184 git clone https://github.com/kakaobrain/pororo.git
185 ls
186 cd pororo/
187 pop install -e .
from pororo import Pororo
ocr = PororoOcr()
image_path = "좀더쉬운테이블.png" #input("Enter image path: ")
text = ocr.run_ocr(image_path, debug=True)
print('Result :', text)
pororo is based on torch=1.6(cuda 10.1) and python>=3.6
근데 colab에서 torch 1.6 설치 안됨. 그렇다고 최근 버전으로 막 설치하면 안 돌아감.
!pip install torch==1.11.0
print(torch.version)
1.11.0+cu102
!pip install torchvision==0.12.0
!pip install opencv-python-headless
!pip install pororo-ocr
prrocr.ocr.get_available_langs()
img_path = "/content/drive/MyDrive/이든티앤에스/02_OCR/좀더쉬운테이블.png"
image = cv2.imread(img_path)
ocr = prrocr.ocr(lang="ko")
result = ocr(image, detail=True)
print(result)
적당히 잘 나온다. 그리고 연관있는 텍스트 하나로 인식되는것도 잘됨. 역시 지금까지 테스트 해본 모델 중엔 이게 잴 나은듯.
다만 ㅇ,ㅁ,ㅂ 구분을 잘 못함.
전처리를 잘 하면 될꺼 같기도....
테이블 ocr만 한다고 생각하고 이미지를 줄로 짜르는걸 먼저 해보면 되지 않을까?