야구놀자 ver.3 - 1) Scraping & JSON parsing

Dzeko·2024년 3월 3일
0

개발일지

목록 보기
105/112

KBO 리그의 원년부터 지난시즌, 즉 2023년까지의 모든 시즌의 모든 선수의 데이터를 스크래핑 해서 데이터 가공을 해야한다.

타겟 사이트는 KBO 공홈과 사설 데이터 사이트 중에 고뇌를 하다 내가 필요한 데이터인 투수의 피안타율이 제공되는 STATIZ 를 타겟으로 정했다.

파이썬과 셀레니움을 사용했고 시즌별 투수와 타자, 그리고 시즌별 데이터를 긁어왔다.

버전 1과 2에서는 판다스와 넘파이를 사용해 데이터를 가공했다면 이번에는 단순한 json 데이터만 필요했기에 json으로 파싱만 했다.

파싱할 때 어떤 기준으로 파싱을 할지 고민을 했는데, 초기 구상한 선수 추가 방법을 위해 타자와 투수를 나누고, 그 안에서 연도별로 나누는 선택을 했다.

profile
Hound on the Code

0개의 댓글