PDF 자동화

수현·2024년 12월 15일

강서여성RPA학습

목록 보기

16/39

PDF 자동화의 기초

텍스트 기반 PDF

텍스트 데이터가 직접 포함된 PDF 형식
텍스트를 쉽게 추출하고 검색할 수 있음
OCR 기술 없이도 100% 텍스트를 추출할 수 있음
주로 텍스트 편집기나 워드 프로세서에서 직접 PDF로 변환하거나 저장할 때 생성됨
파일 크기가 일반적으로 이미지 기반 PDF보다 작음

이미지 기반 PDF

스캔된 문서와 같이 텍스트 데이터가 이미지 형식으로 저장된 PDF
텍스트 추출을 위해 OCR(광학 문자 인식) 기술이 필요함
OCR 기술의 정확도는 이미지 품질, 텍스트 크기, 폰트 등에 따라 달라질 수 있음
처리 시간이 네이티브 텍스트 PDF보다 더 오래 걸릴 수 있음

텍스트 기반 PDF는 직접적인 텍스트 추출이 가능하지만, 이미지 기반 PDF는 추가적인 처리 단계가 필요하므로 자동화 과정에서 이를 고려해야 한다.

PDF 액티비티

특성	Read PDF Text	Extract PDF Text	Read PDF With OCR
주요 용도	텍스트 기반 PDF	텍스트 기반 및 이미지 기반 PDF	모든 유형의 PDF
OCR기능	없음	있음	있음
페이지 지정 가능	가능	불가능	가능
처리 속도	빠름	빠름	상대적으로 느림
이미지 기반 PDF 처리	불가능	가능	가능
정확도	높음	높음	변동 가능
구조적 정보 유지	제한적	가능	제한적
OCR 엔진 선택	해당 없음	가능	해당 없음

PDF의존성 설치

텍스트기반 PDF - 드래그하면 텍스트가 추출된다
이미지 기반 PDF - 드래그해서 텍스트를 추출하지 못한다

이전 포스트

액셀 매크로 활용

다음 포스트

이메일 자동화

0개의 댓글