법령 크롤링데이터 전처리

0

<img> 태그 전처리

1. 조항,항제,호제,목제, 각 파일의 내용 컬럼이 몇번째 인지 구하기

조항
['법령ID', '조문키', '조문가지번호', '조문여부', '조문제목', '조문시행일자', '조문이동이전', '조문이동이후', '조문변경여부', '조문제개정유형', '조문내용', '조문참고자료', '항'] --- 12

항제
['법령ID', '조문키', '항번호', '항제개정유형', '항제개정일자문자열', '항내용', '호'] --- 5

호제
['법령ID', '조문키', '항번호', '호번호', '호내용', '목'] --- 4

목제
['법령ID', '조문키', '항번호', '호번호', '목번호', '목내용'] --- 5

2. 내용 컬럼 안에 img가 있는지 검사

johang_csv = pd.read_csv(".\조항_통합.csv", encoding='utf-8')
hang_csv = pd.read_csv(".\항제_통합.csv", encoding='utf-8')
ho_csv = pd.read_csv(".\호제_통합.csv", encoding='utf-8')
mok_csv = pd.read_csv(".\목제_통합.csv", encoding='utf-8')

img_johang = johang_csv.loc[johang_csv['조문내용'].str.contains('img')]
img_hang = hang_csv.loc[hang_csv['항내용'].str.contains('img')]
img_ho = ho_csv.loc[ho_csv['호내용'].str.contains('img')]
img_mok = mok_csv.loc[mok_csv['목내용'].str.contains('img')]

img_johang.to_csv(".\img_johang", sep=',', na_rep='NaN')
img_hang.to_csv(".\img_hang", sep=',', na_rep='NaN')
img_ho.to_csv(".\img_ho", sep=',', na_rep='NaN')
img_mok.to_csv(".\img_mok", sep=',', na_rep='NaN')

3. img가 있는 리스트 뽑아내기 & 4. img의 id 추출

import re

img_johang = pd.read_csv(".\img_johang.csv", encoding='utf-8')
img_hang = pd.read_csv(".\img_hang.csv", encoding='utf-8')
img_ho = pd.read_csv(".\img_ho.csv", encoding='utf-8')
img_mok = pd.read_csv(".\img_mok.csv", encoding='utf-8')

img_johang_list = []
for i in range(len(img_johang)):
    img_johang_list.append(re.search('[0-9]{5,}', img_johang['조문내용'][i]).group())

img_johang['img_id'] = img_johang_list

img_hang_list = []
for i in range(len(img_hang)):
    img_hang_list.append(re.search('[0-9]{5,}', img_hang['항내용'][i]).group())

img_hang['img_id'] = img_hang_list

img_ho_list = []
for i in range(len(img_ho)):
    img_ho_list.append(re.search('[0-9]{5,}', img_ho['호내용'][i]).group())

img_ho['img_id'] = img_ho_list

img_mok_list = []
for i in range(len(img_mok)):
    img_mok_list.append(re.search('[0-9]{5,}', img_mok['목내용'][i]).group())

img_mok['img_id'] = img_mok_list
  1. 뽑아낸 id 리스트로 요청 줘서 파일 다운받는 구문작성
  2. 다운받은 파일 불러내서 ocr 결과 넣는 구문작성(img id로 구분 및 저장)
  3. 저장된 ocr결과를 다시 대입
profile
좋은 서비스는 좋은 데이터로부터 나온다 :)

0개의 댓글