PDF 자동화

수현·2024년 12월 15일

강서여성RPA학습

목록 보기
16/39

PDF 자동화의 기초

텍스트 기반 PDF

  • 텍스트 데이터가 직접 포함된 PDF 형식
  • 텍스트를 쉽게 추출하고 검색할 수 있음
  • OCR 기술 없이도 100% 텍스트를 추출할 수 있음
  • 주로 텍스트 편집기나 워드 프로세서에서 직접 PDF로 변환하거나 저장할 때 생성됨
  • 파일 크기가 일반적으로 이미지 기반 PDF보다 작음

이미지 기반 PDF

  • 스캔된 문서와 같이 텍스트 데이터가 이미지 형식으로 저장된 PDF
  • 텍스트 추출을 위해 OCR(광학 문자 인식) 기술이 필요함
  • OCR 기술의 정확도는 이미지 품질, 텍스트 크기, 폰트 등에 따라 달라질 수 있음
  • 처리 시간이 네이티브 텍스트 PDF보다 더 오래 걸릴 수 있음

텍스트 기반 PDF는 직접적인 텍스트 추출이 가능하지만, 이미지 기반 PDF는 추가적인 처리 단계가 필요하므로 자동화 과정에서 이를 고려해야 한다.

PDF 액티비티

특성Read PDF TextExtract PDF TextRead PDF With OCR
주요 용도텍스트 기반 PDF텍스트 기반 및 이미지 기반 PDF모든 유형의 PDF
OCR기능없음있음있음
페이지 지정 가능가능불가능가능
처리 속도빠름빠름상대적으로 느림
이미지 기반 PDF 처리불가능가능가능
정확도높음높음변동 가능
구조적 정보 유지제한적가능제한적
OCR 엔진 선택해당 없음가능해당 없음

PDF의존성 설치


  • 텍스트기반 PDF - 드래그하면 텍스트가 추출된다

  • 이미지 기반 PDF - 드래그해서 텍스트를 추출하지 못한다

0개의 댓글