파이썬으로 나무위키 JSON 덤프 데이터 파싱하기 이용하여 만든 Namuwiki Extractor
📦Github: nawnoes/NamuwikiExtractor
ijson
kss
namu-wiki-extractor
나무위키 덤프 다운로드 페이지에서 나무위키 덤프 다운로드
nawnoes/NamuwikiExtractor 에서 NamuwikiExtractor.py
다운로드.
NamuwikiExtractor.py
경로에서 아래 명령어 실행.
python3 NamuwikiExtractor.py --dump_path "[나무위키 덤프 경로]" --output_file "[출력 파일경로]"
python3 NamuwikiExtractor.py --dump_path "/Volumes/My Passport for Mac/00_nlp/나무위키/docData200302.json" --output_file "./namuwiki.txt"
위에 인자로 사용한 출력 파일경로
에 아래와 같이 나무위키 텍스트 파일 생성