데이터전처리 - 나무위키 덤프 텍스트 데이터 얻기

nawnoes·2021년 1월 2일
1

NLP

목록 보기
22/45

Namuwiki Extractor

파이썬으로 나무위키 JSON 덤프 데이터 파싱하기 이용하여 만든 Namuwiki Extractor

📦Github: nawnoes/NamuwikiExtractor

개선사항

  • 명령형으로 사용가능하게 변경
  • 색상코드 제외 정규식 추가
  • kss를 이용한 문장 나누기 추가

사용법

0. 패키지 설치

ijson
kss
namu-wiki-extractor

1. 나무위기 덤프 다운로드

나무위키 덤프 다운로드 페이지에서 나무위키 덤프 다운로드

2. Namuwiki Extrator 다운로드


nawnoes/NamuwikiExtractor 에서 NamuwikiExtractor.py 다운로드.

3. 명령어 실행

NamuwikiExtractor.py 경로에서 아래 명령어 실행.

python3 NamuwikiExtractor.py --dump_path "[나무위키 덤프 경로]" --output_file "[출력 파일경로]"
사용예
python3 NamuwikiExtractor.py --dump_path "/Volumes/My Passport for Mac/00_nlp/나무위키/docData200302.json" --output_file "./namuwiki.txt"

4. 파일 생성

위에 인자로 사용한 출력 파일경로에 아래와 같이 나무위키 텍스트 파일 생성

Reference

파이썬으로 나무위키 JSON 덤프 데이터 파싱하기

0개의 댓글