AI_Tech부스트캠프 week9...[5] OCR Services & Application

Leejaegun·2024년 10월 30일
0

AI_tech_CV트랙 여정

목록 보기
31/74

1.OCR Services & Applications

1.1 Text Extractor


외국어, 다량의 글자 외에도 사진만 찍어서 바로 wifi 비밀번호를 얻는 것도 있다.

1.2 Text Extractor + Natural Language Processing

구글에 "업스테이지"만 쳐도 업스테이지의 이미지 text들이 있는 것들도 자동으로 나오게 함.

광고성/혐오성 이미지text들도 자동으로 제거. (근데 저기에 뭐라고 적혀있을려나..)

외국 놀러 갈때, 언어가 잘 이해가 안가면 저렇게 할 수 있을 것.

1.3 Key-value Extractor


신용카드 외에도 신분증, 명함, 사업자 등록증 등등에서 {key:value}로 추출.
기 정의된 “password”라는 key/field 로 value 를 받아오는 Text parser 가 비밀번호를 추출

2. OCR기반문서이해

2.1 Document Layout Analysis

문서에 있는 텍스트의 복잡한 구조(ex, 표,리스트) 를 고려한 분석

표는 표대로 이해하고 이미지는 이미지라고 읽게 하기.
👉 전체적으로 문서가 어떻게 되어 있는줄 알아야 함. 즉 layout 을 알아야 한다는 것임
이것이 기존 OCR과 다른점이다.
👉 Document Layout Analysis 는 텍스트 박스를 표, 그림 등으로 추가 분류하여 더 정확한 분할을 목표로 합니다. 반면, OCR의 객체는 Text 라는 단일 클래스에 속한다고 볼 수 있습니다

OCR + 일반 객체분석의 영역 클래스분류

OCR + 일반 객체 분석의 영역 클래스 분류+ HTML출력

논문 :https://arxiv.org/pdf/1908.07836

2.2 Document Visual Question Answering(DocVQA)

Visual Question Answering -> 질의응답!
논문 : https://arxiv.org/pdf/2212.05935


-> Dart에 있는 회계보고서를 자동으로 가져와서 위 OCR를 통해서 문서 분석후 회계자료 자동으로 보고서 제출하게끔 만들 수 있을 것 같음. 이외에도 청약,공모,보고 같은 것을 자동적으로 요약,분석, 투자방향 결정을 할 수 있을 것 같다.

profile
Lee_AA

0개의 댓글

관련 채용 정보