위키피디아 API_파이썬_데이터 수집

미난·2024년 7월 26일
0
post-thumbnail

python에선 위키피디아 라이브러리를 지원하고 있으며, 이를 이용하여 손쉽게 위키피디아의 데이터를 수집할 수 있습니다.

1. Wikipedia API 설치 및 호출

# 위키피디아 API 설치
pip install wikipedia-api

# 라이브러리 호출
import wikipediaapi

2. Wikipedia API 클라이언트 설정

# 초기화 및 설정
wiki_wiki = wikipediaapi.Wikipedia('MyProject/1.0 (your_@email.com)', 'ko')
  • 먼저 wikipediaapi.Wikipedia 클래스를 사용하여 Wikipedia API 클라이언트를 초기화합니다.
  • 사용자 에이전트(User Agent)를 지정해줍니다.
    여기선 'MyProject/1.0 (your_@email.com)' 이 부분에 해당됩니다.
    • 반드시 프로젝트명, 버전(주소) 를 매개변수로 줘야만 API가 정상적으로 설정됩니다.
  • Wikipedia의 언어를 지정합니다. 여기서는 한국어 위키피디아를 사용하기 위해 'ko'를 입력합니다.

3. Wikipedia 페이지 객체 생성

page_py = wiki_wiki.page('파이썬')
  • wiki_wiki 객체의 page 메서드를 호출하여 '파이썬'이라는 제목의 Wikipedia 페이지 객체를 생성합니다.
  • 쉽게 말해 '파이썬' 위키피디아 페이지를 불러온 겁니다.

3.1 페이지 존재 여부 확인

print("Page - Exists: %s" % page_py.exists())
  • page_py.exists(): 페이지가 실제로 존재하는지를 확인하는 메서드입니다. 이 메서드는 페이지가 존재하면 True를, 존재하지 않으면 False를 반환합니다.
  • 실제 결과는 아래 이미지와 같이 나옵니다.
    • True가 출력된 것을 보니 페이지가 존재하나 봅니다.

4. 페이지 제목과 요약 내용 출력

# 페이지 제목 출력
print("Page - Title: %s" % page_py.title)

# 페이지 내용 출력(100자)
print("Page - Summary: %s" % page_py.summary[0:100])
  • page_py.title: page_py 객체의 title 속성은 Wikipedia 페이지의 제목을 반환합니다. 여기서는 '파이썬' 페이지의 제목을 가져옵니다.
  • page_py.summary: page_py 객체의 summary 속성은 해당 페이지의 요약 내용을 반환합니다.
    • page_py.summary[0:100]: 요약 내용의 처음 100자만 슬라이스하여 가져옵니다.

5. 페이지 전체 내용 출력

# 페이지 전체 내용 출력
print(page_py.text)
  • page_py.text: text 속성으로 page_py 페이지 내용을 출력합니다.

추가. 데이터 저장

  • 아래와 같은 코드로 가져온 데이터를 원하는 파일 형식으로 저장할수도 있을겁니다.
with open("파이썬.txt", "w") as f:
    f.write(p_wiki.text)

마무리

  • 오늘은 위키피디아 데이터를 가져오는 정보를 알아봤습니다.
  • 위키피디아 API와 파이썬의 조합은 굉장히 편리한거 같아요.
  • 위키피디아는 항상 정보가 업데이트가 되고, 전세계 모두가 이용하는 정보의 장인만큼 이를 잘 이용한다면 좋은 아이디어가 나오지 않을까 생각합니다.
profile
주니어 데이터 분석가입니다!

0개의 댓글