Tesseract OCR -pytesseract

be1le·2022년 3월 23일
5

OCR

목록 보기
2/2
post-thumbnail

pytesseract

지난 시간에는 무심코 임포트 해왔던 pytesseract!
하지만 그냥 지나가기 에는 OCR에서 너무 중요한 개념이 함축된 라이브러리 이기에 자세히 다뤄보려고 한다.

pytesseract란?

Python-tesseract는 Google의 Tesseract-OCR Engine 용 Wrapper 입니다 . 또한 jpeg, png, gif, bmp, tiff 등을 포함하여 Pillow 및 Leptonica 이미징 라이브러리에서 지원하는 모든 이미지 유형을 읽을 수 있으므로 tesseract에 대한 독립 실행 형 호출 스크립트로도 유용합니다. 또한 스크립트로 사용되는 경우 Python-tesseract는 인식 된 텍스트를 파일에 쓰는 대신 인쇄합니다.

기능

  • get_languages Tesseract OCR에서 현재 지원하는 모든 언어를 반환합니다.
  • get_tesseract_version 시스템에 설치된 Tesseract 버전을 반환합니다.
  • image_to_string Tesseract OCR 처리에서 수정되지 않은 출력을 문자열로 반환합니다.
  • image_to_boxes 인식 된 문자와 해당 상자 경계를 포함하는 결과를 반환합니다.
  • image_to_data 상자 경계, 신뢰도 및 기타 정보가 포함 된 결과를 반환합니다. Tesseract - - 3.05 이상이 필요합니다. 자세한 내용은 Tesseract TSV 문서 를 확인하십시오.
  • image_to_osd 방향 및 스크립트 감지에 대한 정보가 포함 된 결과를 반환합니다.
  • image_to_alto_xml Tesseract의 ALTO XML 형식의 형식으로 결과를 반환합니다.
  • run_and_get_output Tesseract OCR에서 원시 출력을 반환합니다. tesseract로 전송되는 - 매개 변수를 좀 더 제어 할 수 있습니다.

매개 변수란?

image_to_data (image, lang = None, config = '', nice = 0, output_type = Output.STRING, timeout = 0, pandas_config = None)

  • image 객체 또는 문자열-Tesseract에서 처리 할 이미지의 PIL 이미지 / NumPy 배열 또는 파일 경로입니다. 파일 경로 대신 객체를 전달하면 pytesseract는 암시 적으로 이미지를 RGB 모드 로 변환 합니다 .
  • lang String-Tesseract 언어 코드 문자열입니다. 지정되지 않은 경우 기본값은 eng입니다 ! 여러 언어의 예 : lang = 'eng + fra'
  • config String- pytesseract 함수를 통해 사용할 수없는 추가 사용자 지정 구성 플래그 입니다. 예 : config = '-psm 6'
  • nice Integer-Tesseract 실행에 대한 프로세서 우선 순위를 수정합니다. Windows에서는 지원되지 않습니다. Nice는 유닉스와 유사한 프로세스의 우수성을 조정합니다.
  • output_type 클래스 속성-출력 유형을 지정하며 기본값은 string 입니다. 지원되는 모든 유형의 전체 목록은 pytesseract.Output 클래스 의 정의를 확인하세요 .
  • timeout Integer 또는 Float-OCR 처리를위한 기간 (초). 그 후 pytesseract가 종료되고 RuntimeError가 발생합니다.
  • pandas_config Dict- Output.DATAFRAME 유형 에만 해당됩니다 . pandas.read_csv에 대한 사용자 지정 인수가있는 사전 . image_to_data 의 출력을 사용자 정의 할 수 있습니다 .

CLI 사용법

$ ( env ) > pytesseract [ -l lang ] image_file

Reference

tesseract --help-extra


그 외에도 이렇게나 많은 옵션이 있으니 필요한 옵션을 알맞게 사용하는 것이 필요하다.

profile
그저 그런 개발자가 되지 않겠습니다.

0개의 댓글