Keyword
인스타그램, 스크레이핑, selenium
한 것
부탁을 받아 인스타그램 게시물 스크레이핑하는 코드를 짜보기 시작했다. 셀레니움을 활용하는데, 오늘은 로그인하는 것까지 했다.
- 여기 블로그에 보면 어떤 분이 코드 공개한 게 있다. 최근까지도 인스타그램 구조에 맞게 코드 수정까지 하는 걸 보고 좀 멋있다고 생각했다. 빨리 작업해야했기 때문에 직접 인스타그램 사이트 구조를 파보기는 어려울 것 같아 주로 이분의 코드를 참고해보려고 했는데, 내가 뽑고 싶은 내용이랑 차이가 있어서 어떻게 될지는 모르겠다. 아마 일정 부분만 참고하게 될 듯.
- 맥에서 크롬 Webdriver 실행 오류날 때 해당 글 참고하기. 애플의 보안정책 상 확인되지 않은 파일을 열 수 없는데, 이 속성을 해제하는 거다.
- 레퍼런스 코드를 보면 로그인 영역 찾아갈 때
driver.find_element_by_name
과 같이 되어있는데, 이 글에 의하면 셀레니움 상위 버전에서는 driver.find_element(By.NAME, instagram_id_name)
와 같은 형태로 써야 한다. '[python] selenium 크롤링 find_element_by_css_selector 더 이상 사용 불가' 7월 21일에 쓰여진 해당 글에 의하면 앞으로는 그냥 find_element
만 쓸 수 있다고 생각하고 있어도 되지 않을까 싶다.
- 예~전에 데이터 엔지니어링 섹션 개인 프로젝트할 때 웹 스크레이핑 코드 짜다가
robot.txt
의 존재와 의미에 대해 알게 되었고 기억하고 있었는데, 이번에 다시 리서치를 하다보니 해당 존재를 모르는 사람이 은근히 많은 것 같다?! 스크레이핑은 항상 조심 조심.
느낀 것
- 오랜만에 파이썬 코드를 짜봐서 감이 흐물흐물해졌을까 걱정했는데, 걱정만큼은 아니어서 다행..(그렇다고 괜찮다는 건 아님) 수요일까지 인스타그램 스크레이핑 마무리 해보자!
- 회사에서 파이썬을 얼마나 쓰는지 모르겠지만, 그것과 별개로 (이변이 없는 한) 커리어 내내 파이썬은 쭉 가져가야 한다!! 프로그래머스나 백준도 심심할 때 풀어봐야겠다.