[python] pdfplumber

gunny·2024년 4월 1일
0

Python

목록 보기
19/29

pdfplumber

  • Python으로 작성된 PDF 데이터 추출 도구
  • PDF 파일에서 텍스트, 표, 이미지 등 다양한 유형의 데이터를 추출한다.

[주요 기능 및 특징]

  1. 텍스트 추출 : pdfplumber는 PDF파일에서 텍스트를 추출하는데 사용된다.
    이를 통해 문서의 내용을 검색하거나 분석한다.
  2. 표 추출 : PDF 파일에서 표를 추출해서 CSV 형식이나 DataFrame 으로 변환한다. 이를 통해 데이터를 분석하거나 시각화한다.
  3. 이미지 추출: PDF 파일에서 이미지를 추출할 수 있다. 이를 통해 이미지 데이터를 분석하거나 다른 형식의 파일로 내보낸다.
  4. 페이지 조작 : PDF 파일에서 페이지를 분리하거나 조작할 수 있다.
    이를 통해 페이지간 이동, 회전 또는 삭제 등의 작업을 할 수 있다.
  5. 문자인식 : OCR을 사용해 이미지 내 텍스트를 인식하고 추출할 수 있다.

pdfplumber.rect_to_edges

  • 주어진 사각형을 기반으로 사각형의 에지를 생성
  • 일반적으로 pdf 파일에서 텍스트나 그림, 표 등의 요소는 사각형 형태로 표현됨
    이러한 사각형을 구성하는 네 개의 선분(edgs)를 반환한다. 각 선분은 사각형의 변이다.

-> 특정 영역의 위치나 크기를 파악하고자할 때 주로 사용된다.

profile
꿈꾸는 것도 개발처럼 깊게

0개의 댓글