tika 라이브러리 사용기

stillssi·2022년 11월 19일
0
post-thumbnail

tika 라이브러리는 pdf 파일의 텍스트를 추출해주는 아주 유용한 라이브러리!
이름도 뭔가 귀엽다 .. 티카,, 티키 타카.. 티카.. (ㅋ)

앞에서 크롤링해온 다운로드 링크를 통해 pdf를 모두 다운받아서
텍스트 추출을 해줄거다!

1. 먼저 파일 다운로드부터

from requests import get
import pandas as pd
import numpy as np
def read_file():
    df = pd.read_csv('다운 링크 경로')
    return df['date'].tolist(), df['file_url'].tolist() #링크 칼럼 -> 리스트로


def download_files(date,url):
    for file_name,link_url in zip(date,url):
        with open(f'/파일경로/{file_name}.pdf', "wb") as file:
            response = get(link_url)
            file.write(response.content)
#함수 호출
date, url = read_file() 
download(date, url)

이렇게 pdf_file 디렉터리에 파일 저장 완료!
파일 제목은 date로 하였다

2. 이제 본격적으로 텍스트 추출

  • 먼저 tika 라이브러리 다운
pip install tika
  • import해서 사용
import os
import shutil
from tika import parser

def extract_pdf_text():
    PDF_DIR = 'PDF 파일 경로'
    os.listdir(PDF_DIR)

    file_list = os.listdir(PDF_DIR)

    for file in file_list:    
        pdf_path =  f"경로지정/{file}" 
        parsed = parser.from_file(pdf_path)
        SAVE_DIR = '저장경로 지정'+file[0:10]+'.txt'
        txt = open(SAVE_DIR, 'w', encoding = 'utf-8')
        print(parsed['content'], file = txt)
        txt.close()

이렇게 해주면

잘 완료된 모습
다음은 이제 데이터 수집 완료했으니 전처리 과정으로 넘어가보겠슴다~!

Deciphering Monetary Policy Board Minutes through Text Mining Approach: The Case of Korea
(텍스트 마이닝을 활용한 금융통화위원회 의사록 분석)

  • 박기영(연세대), 이영준(연세대), 김수현
    논문을 기반으로 배워보는 텍스트 마이닝 프로젝트 입니다.

0개의 댓글