pdf2table

네모·2023년 6월 7일
post-thumbnail

환경부 디지털도서관에 공개된 제5차 전국자연환경조사 pdf 파일에서 종 목록을 뽑는 작업을 했다. 단순히 종목록만 뽑는 작업은 이전에 했었는데 이번에는 격자 정보를 유지하면서 추출했다.

라이브러리는 camelot, pypdf를 이용했다. pypdf가 2022년 말에 업데이트되면서 CJK 문자 추출 성능이 향상되었다고 해서 써봤는데 매우 만족…

포유류와 양서·파충류는 전자조에서 조사되는 종이 많지 않고 종목록이 대부분 3쪽에 들어 있어서 3쪽을 뽑게 했다. 포유류는 표가 짧으면 뒤에 서식지 유형정보가 딸려와서 각 인스턴스에서 첫 번째 표 1개만 쓰고 나머지는 버리도록 했고, 양서·파충류는 양서류와 파충류가 나뉘어 있기 때문에 모든 표를 처리했다.

조류는 표 제목줄에 격자 E#이 있는 표만 추출하도록 했다. 종목록이 끝나면 그 이후로는 검색하지 않도록 다음 표에서 격자가 나오지 않으면 종료했다.

육상곤충은 붙임 1 이후부터 붙임 2 전까지 있는 표를 추출하였다. 육상곤충은 국생종 2022년판과 대조하면서 굉장히 많은 수동처리를 거쳤다. 종수도 많고 3차, 4차 전자조 결과까지 같이 들어있기 때문에 변경되거나 신종 등록된 종을 확인하는데 시간을 많이 썼다. 개중에는 단순 오류도 많았는데 특히 꽃매미, 주홍날개꽃매미, 희조꽃매미 교통정리하면서 이게 맞나 싶었지만 그냥 했다(?)

사용 시 주의사항

  • 0은 개체수로는 없다는 뜻이지만 간혹 동그라미로 쓰는 도엽도 있어서 반드시 원문 확인 후 작업할 것
  • 신종, 신칭 외 종 추가가 필요한 종 : 왜 국생종에 없는지 사유를 파악하지 못한 경우
    • 개미땅멸구
    • 두눈큰애기자나방
    • 벚나무잎말이나방
    • 숲곰개미
    • 쌍띠감탕벌
    • 알락알멸구
    • 앞선두리밤나방
    • 애검정대모벌
    • 일본노래기벌
    • 청벌
    • Acrosathe tashimai
    • Epeolus japonicus
    • Idaea sakuraii
    • Linnavuoriana decempunctata
    • Metriostola infausta
    • Pandivirilia sapporensis
    • Phenelia striatella
    • Pocadites oviformis
    • Rhizosthenes falciformis
    • Tachyporus hypnorum

0개의 댓글