새로운 데이터셋들을 기존 모델인 PaddleOCR로 inference했을 때, 문자 인식을 아예 못함

위에 두개 이미지 파일 -> 새로운 데이터셋
마지막 한개 이미지 파일 -> 기존 데이터셋
=> 이에 대한 해결책으로 네이버 Clova에서 나온 text recognition 모델을 사용해봄
네이버 Clova에서 나온 Text Detection 모델(CRAFT)과 Recognition 모델을 사용함
Recognition 모델 깃허브 링크 : page
결과: Detection 모델인 CRAFT와 recognition 모델 모두 문자를 잘 인식하지 못함

세개 모두 새로운 데이터셋으로 잘못 인식하고 있는 결과를 볼 수 있음
Dataset Annotation하기

-> 이런 식으로 각 이미지 파일들의 text와 바운딩 박스 좌표값들을 Annotation File에 입력을 해줘야 함
직접 다 인식을 하기엔 데이터 양이 많아서, 기존의 pretrain된 아래의 모델 두개를 detection하는 데 사용함

결과: 새로운 데이터셋에는 detection을 하지 못해 bounding box를 만들지 못함
기존 데이터셋은 detection은 하지만 정확도가 떨어짐

-> 밑에 한 개 이미지 파일이 기존 데이터셋

-> 인식 정확도가 안 좋음
Grounding Dino를 이용한 Object Detection
(회사 서버에서 돌리려고 하면 ERROR: Could not install packages due to an OSError:No space left on device가 떠서 불가능)
-> local에서 가상환경을 만들어서 돌림



=> 이에 대한 해결책으로, 직접 boundingbox를 치는 수 밖에 없을듯..