프로젝트 일지 - (2) KBO 기록 스크래핑 (Statiz)

Dzeko·2021년 7월 29일
0

개발일지

목록 보기
3/112
post-thumbnail

KBO 선수들의 기록을 스크래핑 하기 위해 셀레니움 패키지를 사용하였다.
타겟사이트는 statiz.co.kr

기록실에서 연도당 팀 선수들의 기록을 가져오려 했다.
.find_element_by_css_selector와 .find_elements_by_css_selector의 차이를 망각하고 넘쳐나는 오류에 이 차이를 다시 발견하는 데에만 꼬박 하루가 걸렸다.
항상 이런 어이없는 고통 뒤에는 현타가 온다..

82시즌부터 20시즌 까지(21시즌은 진행중이므로.. 하지만 나중에 Live선수를 넣는것도 고려해봐야겠다.) 가져오려면 해당 연도당 팀의 갯수, 이름이 다르기 때문에 어떻게 가져올까 고민을 많이 했다.
또한 타자기록에 투수들이 몇몇 있어 이것 또한 고민대상이었다. (이건 너무 쉽게 해결되었지만)


url 안에 %d 와 %s 로 연도와 팀명 변수를 넣는게 포인트였다. 이렇게 되면 해당 연도에 찾는 팀이 없으면 자동으로 넘어간다.
테이블에 타석 타수 안타 이런 글자들 빼고 선수들의 기록만 가져오기 위해

글자수를 제한했고

포지션이 없는 선수들을 스크랩 할때 오류의 예외처리를 했고(아마 대타로만 나온 선수들인가 보다)
투수는 패스하게 하도록 했다.
내가 필요한 데이터들만 DB에 저장하도록 했다.

profile
Hound on the Code

0개의 댓글