220919_TIL

신두다·2022년 9월 19일
0

TIL

목록 보기
75/82

Keyword

인스타그램, 스크레이핑, selenium


한 것

부탁을 받아 인스타그램 게시물 스크레이핑하는 코드를 짜보기 시작했다. 셀레니움을 활용하는데, 오늘은 로그인하는 것까지 했다.

  • 여기 블로그에 보면 어떤 분이 코드 공개한 게 있다. 최근까지도 인스타그램 구조에 맞게 코드 수정까지 하는 걸 보고 좀 멋있다고 생각했다. 빨리 작업해야했기 때문에 직접 인스타그램 사이트 구조를 파보기는 어려울 것 같아 주로 이분의 코드를 참고해보려고 했는데, 내가 뽑고 싶은 내용이랑 차이가 있어서 어떻게 될지는 모르겠다. 아마 일정 부분만 참고하게 될 듯.
  • 맥에서 크롬 Webdriver 실행 오류날 때 해당 글 참고하기. 애플의 보안정책 상 확인되지 않은 파일을 열 수 없는데, 이 속성을 해제하는 거다.
  • 레퍼런스 코드를 보면 로그인 영역 찾아갈 때 driver.find_element_by_name과 같이 되어있는데, 이 글에 의하면 셀레니움 상위 버전에서는 driver.find_element(By.NAME, instagram_id_name)와 같은 형태로 써야 한다. '[python] selenium 크롤링 find_element_by_css_selector 더 이상 사용 불가' 7월 21일에 쓰여진 해당 글에 의하면 앞으로는 그냥 find_element만 쓸 수 있다고 생각하고 있어도 되지 않을까 싶다.
  • 예~전에 데이터 엔지니어링 섹션 개인 프로젝트할 때 웹 스크레이핑 코드 짜다가 robot.txt의 존재와 의미에 대해 알게 되었고 기억하고 있었는데, 이번에 다시 리서치를 하다보니 해당 존재를 모르는 사람이 은근히 많은 것 같다?! 스크레이핑은 항상 조심 조심.

느낀 것

  • 오랜만에 파이썬 코드를 짜봐서 감이 흐물흐물해졌을까 걱정했는데, 걱정만큼은 아니어서 다행..(그렇다고 괜찮다는 건 아님) 수요일까지 인스타그램 스크레이핑 마무리 해보자!
  • 회사에서 파이썬을 얼마나 쓰는지 모르겠지만, 그것과 별개로 (이변이 없는 한) 커리어 내내 파이썬은 쭉 가져가야 한다!! 프로그래머스나 백준도 심심할 때 풀어봐야겠다.
profile
B2B SaaS 회사에서 Data Analyst로 일하고 있습니다.

0개의 댓글