OCR(Optical Character Recognition)은 이미지에서 문자를 인식하여 컴퓨터가 사용할 수 있는 텍스트 형태로 변환하는 기술입니다. 이 기술은 스캔한 문서, 사진 속 텍스트, 영수증 등 다양한 인쇄 매체에서 텍스트를 디지털 데이터로 변환하는 데 사용됩니다.
import cv2
import numpy as np
import pyautogui
import pytesseract
from PIL import Image
# 바탕화면 스크린샷 캡처
screenshot = pyautogui.screenshot()
screenshot = np.array(screenshot)
screenshot = cv2.cvtColor(screenshot, cv2.COLOR_RGB2BGR)
# 스크린샷 저장
cv2.imwrite('OCR/desktop_screenshot.png', screenshot)
pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
# 이미지 로드 및 OCR을 통한 텍스트 인식
img = Image.open('OCR/desktop_screenshot.png')
text = pytesseract.image_to_string(img)
# 지정한 텍스트가 있는지 확인 (영어)
search_text = 'OCR'
print(text)
if search_text in text:
print(f"'{search_text}'를 찾았습니다!")
else:
print(f"'{search_text}'를 찾을 수 없습니다.")
테서랙트(Tesseract)는 다양한 운영 체제를 위한 광학 문자 인식 엔진입니다. 이 소프트웨어는 Apache License, 버전 2.0에 따라 배포되는 무료 소프트웨어이며 2006년부터 Google에서 개발을 후원했습니다. Tesseract는 1995년 문자 정확도 측면에서 3대 OCR 엔진에 속했으며 Linux, Windows 및 Mac OS X에서 사용할 수 있습니다.
우선 사용자에 환경에 맞는 언어를 추가하여 설치해야합니다.