PDF 한글 추출 실험
지난 번 글에서는 PDF라이브러리 5종의 성능을 비교했다.
실험에서 PDF 라이브러리도 예상보다 훨씬 뛰어난 성능을 보여주긴 했지만,
가끔씩 글자가 깨져버리기도 하고,
표는 전혀 추출해내지 못하는 모습이 살짝 아쉬웠다
그러다 문득 PDF 라이브러리와 전문 OCR의 성능은 얼마나 차이가 날 지 궁금해져 실험을 해보기로 했다.
그래서 이번 글에서는 PDF라이브러리 실험에서 공동 우승(?)을 했던 PDFMiner와, OCR중에서 네이버의 Clova OCR의 성능 비교를 간단히 해보도록 하겠다
PDFMiner
5개의 파이썬 라이브러리 수준에서 사용할 수 있는 것 중 공동 1위 (지난 실험 결과)
⚠️ 20~30개 중 1개 꼴로 아예 텍스트가 깨져버리는 현상이 발생함 (실험 4번 참고)
네이버 Clova OCR
둘 다 불가능
PDFMiner
네이버 Clova OCR
네이버 OCR은 PDF 1 페이지 단위로만 지원해 PDF를 잘라서 실험
웹에서 네이버 Clova OCR 써보며 실험
성능은 비슷비슷했다.
확실히 OCR에서는 깨지는 글자가 거의 없는 것을 확인할 수 있긴 하다
네이버 OCR 줄 바꿈까지 확실하게 해내는 모습이다.
PDFMiner는 표는 불가능 하지만 OCR은 표를 잘 뽑아내는 모습이다. 역시 OCR은 표를 추출해내는 데에 강점이 있다.
PDFMiner는 잘 하다가도 갑자기 글자가 깨져버린다
차트(이미지)는 둘 다 불가능
표에 있어서는 확실히 네이버 Clova OCR이 강점이 있는 모습이다
문득 표를 잘 추출해내는 것을 보고, 복잡한 표도 잘 뽑아낼 수 있는 지가 궁금해졌다. 그래서 우리 팀에서도 꽤나 애를 먹었었던 이른바 표 속의 표, 어려운 표도 잘 뽑아낼 수 있는 지 확인해봤다.
상당히 놀라운 결과이다.
개인적으로는 전혀 기대하고 있지 않았는데,, 표 속의 표까지 잘 뽑아낼 줄은 몰랐다.
AutoRAG 깃허브 => https://github.com/Marker-Inc-Korea/AutoRAG
Clova OCR에 종류가 여러가지 있던데, General OCR을 이용하신 결과인지 질문드립니다.