외국어, 다량의 글자 외에도 사진만 찍어서 바로 wifi 비밀번호를 얻는 것도 있다.
구글에 "업스테이지"만 쳐도 업스테이지의 이미지 text들이 있는 것들도 자동으로 나오게 함.
광고성/혐오성 이미지text들도 자동으로 제거. (근데 저기에 뭐라고 적혀있을려나..)
외국 놀러 갈때, 언어가 잘 이해가 안가면 저렇게 할 수 있을 것.
신용카드 외에도 신분증, 명함, 사업자 등록증 등등에서 {key:value}로 추출.
기 정의된 “password”라는 key/field 로 value 를 받아오는 Text parser 가 비밀번호를 추출
문서에 있는 텍스트의 복잡한 구조(ex, 표,리스트) 를 고려한 분석
표는 표대로 이해하고 이미지는 이미지라고 읽게 하기.
👉 전체적으로 문서가 어떻게 되어 있는줄 알아야 함. 즉 layout 을 알아야 한다는 것임
이것이 기존 OCR과 다른점이다.
👉 Document Layout Analysis
는 텍스트 박스를 표, 그림 등으로 추가 분류하여 더 정확한 분할을 목표로 합니다. 반면, OCR
의 객체는 Text 라는 단일 클래스에 속한다고 볼 수 있습니다
논문 :https://arxiv.org/pdf/1908.07836
Visual Question Answering -> 질의응답!
논문 : https://arxiv.org/pdf/2212.05935
-> Dart에 있는 회계보고서를 자동으로 가져와서 위 OCR를 통해서 문서 분석후 회계자료 자동으로 보고서 제출하게끔 만들 수 있을 것 같음. 이외에도 청약,공모,보고 같은 것을 자동적으로 요약,분석, 투자방향 결정을 할 수 있을 것 같다.