[✔] 테이블 안에 테이블일때 해당 내용 빼기
from PyPDF2 import PdfReader
def extract_metadata(pdf_path):
reader = PdfReader(pdf_path)
metadata = reader.metadata
return metadata
{'/Producer': 'macOS 버전 14.5(빌드 23F79) Quartz PDFContext', '/CreationDate': "D:20241011035344Z00'00'", '/ModDate': "D:20241011035344Z00'00'"}
MacOS에서는 문서를 pdf로 만들때 macOS Quartz PDFcontext를 사용함 따라서 pdf에서 생성된 건지 docx에서 생성된 것인지 확인 불가능. 다만 실제 사용자는 100% Windows를 사용하리라 가정하고 윈도우 테스트 필요함
맘에 안들지만 이게 현실적인 방법일 수 잇음