AI_Tech부스트캠프 week9...[5] OCR Services & Application

Leejaegun·2024년 10월 30일

NaverAIBoostCamp

AI_tech_CV트랙 여정

목록 보기

31/74

1.OCR Services & Applications

1.1 Text Extractor

외국어, 다량의 글자 외에도 사진만 찍어서 바로 wifi 비밀번호를 얻는 것도 있다.

1.2 Text Extractor + Natural Language Processing

구글에 "업스테이지"만 쳐도 업스테이지의 이미지 text들이 있는 것들도 자동으로 나오게 함.

광고성/혐오성 이미지text들도 자동으로 제거. (근데 저기에 뭐라고 적혀있을려나..)

외국 놀러 갈때, 언어가 잘 이해가 안가면 저렇게 할 수 있을 것.

1.3 Key-value Extractor

신용카드 외에도 신분증, 명함, 사업자 등록증 등등에서 {key:value}로 추출.
기 정의된 “password”라는 key/field 로 value 를 받아오는 Text parser 가 비밀번호를 추출

2. OCR기반문서이해

2.1 Document Layout Analysis

문서에 있는 텍스트의 복잡한 구조(ex, 표,리스트) 를 고려한 분석

표는 표대로 이해하고 이미지는 이미지라고 읽게 하기.
👉 전체적으로 문서가 어떻게 되어 있는줄 알아야 함. 즉 layout 을 알아야 한다는 것임
이것이 기존 OCR과 다른점이다.
👉 Document Layout Analysis 는 텍스트 박스를 표, 그림 등으로 추가 분류하여 더 정확한 분할을 목표로 합니다. 반면, OCR의 객체는 Text 라는 단일 클래스에 속한다고 볼 수 있습니다