python에선 위키피디아 라이브러리를 지원하고 있으며, 이를 이용하여 손쉽게 위키피디아의 데이터를 수집할 수 있습니다.
# 위키피디아 API 설치
pip install wikipedia-api
# 라이브러리 호출
import wikipediaapi
# 초기화 및 설정
wiki_wiki = wikipediaapi.Wikipedia('MyProject/1.0 (your_@email.com)', 'ko')
wikipediaapi.Wikipedia
클래스를 사용하여 Wikipedia API 클라이언트를 초기화합니다. 'MyProject/1.0 (your_@email.com)'
이 부분에 해당됩니다.'ko'
를 입력합니다.page_py = wiki_wiki.page('파이썬')
print("Page - Exists: %s" % page_py.exists())
page_py.exists()
: 페이지가 실제로 존재하는지를 확인하는 메서드입니다. 이 메서드는 페이지가 존재하면 True를, 존재하지 않으면 False를 반환합니다.True
가 출력된 것을 보니 페이지가 존재하나 봅니다.# 페이지 제목 출력
print("Page - Title: %s" % page_py.title)
# 페이지 내용 출력(100자)
print("Page - Summary: %s" % page_py.summary[0:100])
page_py.title
: page_py 객체의 title 속성은 Wikipedia 페이지의 제목을 반환합니다. 여기서는 '파이썬' 페이지의 제목을 가져옵니다.page_py.summary
: page_py 객체의 summary 속성은 해당 페이지의 요약 내용을 반환합니다.page_py.summary[0:100]
: 요약 내용의 처음 100자만 슬라이스하여 가져옵니다.# 페이지 전체 내용 출력
print(page_py.text)
page_py.text
: text 속성으로 page_py 페이지 내용을 출력합니다.with open("파이썬.txt", "w") as f:
f.write(p_wiki.text)