[python] pdfplumber

gunny·2024년 4월 1일

pdfplumber python pdfplumber

Python

목록 보기

19/35

pdfplumber

Python으로 작성된 PDF 데이터 추출 도구
PDF 파일에서 텍스트, 표, 이미지 등 다양한 유형의 데이터를 추출한다.

[주요 기능 및 특징]

텍스트 추출 : pdfplumber는 PDF파일에서 텍스트를 추출하는데 사용된다.
이를 통해 문서의 내용을 검색하거나 분석한다.
표 추출 : PDF 파일에서 표를 추출해서 CSV 형식이나 DataFrame 으로 변환한다. 이를 통해 데이터를 분석하거나 시각화한다.
이미지 추출: PDF 파일에서 이미지를 추출할 수 있다. 이를 통해 이미지 데이터를 분석하거나 다른 형식의 파일로 내보낸다.
페이지 조작 : PDF 파일에서 페이지를 분리하거나 조작할 수 있다.
이를 통해 페이지간 이동, 회전 또는 삭제 등의 작업을 할 수 있다.
문자인식 : OCR을 사용해 이미지 내 텍스트를 인식하고 추출할 수 있다.

`pdfplumber.rect_to_edges`

주어진 사각형을 기반으로 사각형의 에지를 생성
일반적으로 pdf 파일에서 텍스트나 그림, 표 등의 요소는 사각형 형태로 표현됨
이러한 사각형을 구성하는 네 개의 선분(edgs)를 반환한다. 각 선분은 사각형의 변이다.

-> 특정 영역의 위치나 크기를 파악하고자할 때 주로 사용된다.

꿈꾸는 것도 개발처럼 깊게

이전 포스트

[python] csv 파일의 형식 추정 - Sniffer().sniff() 메서드

다음 포스트

엔드포인트(Endpoint)

0개의 댓글