한글 OCR with opencv, pytesseract - 시작

yun·2023년 9월 6일
0

OCR

목록 보기
1/2

OCR

  • Optical Character Recognition
  • 텍스트 이미지를 ai 컴퓨터가 읽을 수 있는 포맷의 텍스트로 변환하는 과정

오픈소스 라이브러리

  • tesseract
  • easyOCR
  • pororo
    ...

많은 선택지가 있지만, 설치가 간편하고 사용 예가 많은 tesseract를 pytesseract와 사용하기로 결정

tesseract/pytesseract 설치

  • tesseract 설치
sudo apt install tesseract-ocr
  • 한글팩 설치
sudo apt-get install tesseract-ocr-kor

sudo apt-get install tesseract-ocr-script-hang tesseract-ocr-script-hang-vert
  • 가상환경 생성
python3 -m venv project_eda
  • activate alias 설정
vi ~/.bashrc  # .bashrc 파일 열기

# shift+g로 vim 화면 최하단 이동 후 적당한 위치에 쓰자..
alias 명령어_변수='source ~/venv/venv_name/bin/activate'

# :wq로 저장 후 종료

source ~/.bashrc  # .bashrc 변경내용 반영
  • 사용할 관련 라이브러리 설치
pip install numpy opencv-contrib-python
pip install pytesseract
pip install matplotlib

실행

  • 라이브러리 import
import pytesseract
import cv2
import matplotlib.pyplot as plt
  • 이미지1

  • 결과

  • 이미지2

  • 결과

  • 이미지3

  • 결과

  • 이미지4

  • 결과

확인사항

  • 배경이 흰색일수록, 영어와 한글 같은 서로 다른 언어가 섞여있지 않을수록, 디자인이 없는 글자일수록 인식이 잘된다.

참고문헌

0개의 댓글

관련 채용 정보