드디어 웹 스크랩핑을 도전해보았다.
node.js와 찰떡이라는 구글에서 제공하는 라이브러리인 puppeteer(퍼펫티어)
를 사용하였다.
퍼펫티어 설치 .. 등에 관련해서는 다른 벨로그들에 많이 나와있으니 스킵하고!
내가 이번에 스크래핑에 도전하면서 어려웠던 점 위주로 써보려고 한다.
먼저 내가 이번에 스크래핑에 도전한 데이터는 명품 가구 브랜드 FritzHansen
의 조명 상품 정보였다.
처음에 만만하게 봤다가, 사이트가 아주 다이나믹하게 움직여서 ㅜ 나중엔 거의 울면서 계속 고치면서 했다.. (실제로 울지는 않음)
예를들어, 나는 상품의 가격이 EUR로 궁금한데
select - option을 EUR로 설정하지 않으면 가격이 뜨지 않았기 때문에, 이 조작 또한 필수 사항이었다.
상품 리스트에 모두 다 다르게 생긴 상품들이 있고
상품 카드를 선택하여 상세페이지에 들어가면 색상을 고를 수 있게 되어있다.
색상에 따라 url 주소의 sku= 이부분 뒤의 숫자가 바뀐다. 그렇다면 같은 종류의 상품의 경우 이 sku number로 색상 variation을 구분해야겠꾼. 이라고 생각할 수 있다.
그리고 좀 아래로 내려보면 이러한 상세정보들이 있군! 쟤네 아코디언 메뉴들을 다~ 열어서 정보를 긁어봐야지
스크래핑 시작 전 사이트를 이해하는 방법에 대해서 써봤다.
처음 도전해본 스크래핑이라 시행착오가 많았던 터라 시간은 오래걸렸지만, 그래도 진짜 자바스크립트의 정석.. 을 다시 경험하는 느낌이었고 나중에 성공했을 때는 매우 뿌듯+기쁨!!!
에 대해서는 2탄에 이어서 쓰겠습니다 ! 😏😏😏