pdfplumber
- Python으로 작성된 PDF 데이터 추출 도구
- PDF 파일에서 텍스트, 표, 이미지 등 다양한 유형의 데이터를 추출한다.
[주요 기능 및 특징]
- 텍스트 추출 :
pdfplumber
는 PDF파일에서 텍스트를 추출하는데 사용된다.
이를 통해 문서의 내용을 검색하거나 분석한다.
- 표 추출 : PDF 파일에서 표를 추출해서 CSV 형식이나 DataFrame 으로 변환한다. 이를 통해 데이터를 분석하거나 시각화한다.
- 이미지 추출: PDF 파일에서 이미지를 추출할 수 있다. 이를 통해 이미지 데이터를 분석하거나 다른 형식의 파일로 내보낸다.
- 페이지 조작 : PDF 파일에서 페이지를 분리하거나 조작할 수 있다.
이를 통해 페이지간 이동, 회전 또는 삭제 등의 작업을 할 수 있다.
- 문자인식 : OCR을 사용해 이미지 내 텍스트를 인식하고 추출할 수 있다.
pdfplumber.rect_to_edges
- 주어진 사각형을 기반으로 사각형의 에지를 생성
- 일반적으로 pdf 파일에서 텍스트나 그림, 표 등의 요소는 사각형 형태로 표현됨
이러한 사각형을 구성하는 네 개의 선분(edgs)를 반환한다. 각 선분은 사각형의 변이다.
-> 특정 영역의 위치나 크기를 파악하고자할 때 주로 사용된다.