
VLM을 이용한 OCR 성능을 높이기 위한 필수사항
- 정확한 레이아웃 구조 파악
- 문맥 및 논리적 흐름을 고려
- 할루시네이션의 최소화
OCR의 성능을 높이기 위해 누구나 프롬포트 변경을 시도한다.
열심히 노력해서 변경해보지만 생각보다 결과가 크게 나아지지 않는다.
결국 포기하거나 또는 공수를 들여 라벨링&학습을 시도한다.
그런데 이 프롬포트 변경... 정말 효과가 없는것일까?
프롬포트는 VLM모델의 결과의 정확도를 엄청나게 향상시킬 수 있다.
"그런데 왜 나는 안됐지?"
그건 모델 별로 프롬포트를 이해하는 정도가 꽤나 다르기 때문이고 모델에 적합한 프롬포트를 찾기위해서 꽤나 많은 노력을 기울이지 않았기 때문이다.
GPT에게 물어보면 내가 예상을 뛰어넘는 디테일과 함께 프롬포트를 만들어준다. 최소한 그정도는 돼야한다.
내가 과연 GPT가 작성한 만큼의 정성을 들여 프롬포트를 작성했는가 돌아보고 프롬포트를 변경했을 때 성능이 얼마나 좋아지는지 확인해보자.