스크래핑 이용하여 꼭 필요한 핫딜 게시글만 알림받기

개발공부를해보자·2025년 11월 6일

프로젝트

목록 보기
1/4

동기 : 알림 공해를 없애고, 꼭 필요한 핫딜만 쏙쏙!

  • 반복 구매하는 품목들
    • 주기적으로 사는 물건들은 저렴한 딜이 떴을 때 미리 사두는 편이다.
    • 이를 위해 헬로프라이스, 폴센트를 앱으로 설치해 사용중이다.
  • 기존 서비스의 아쉬움
    • 그런데 이 서비스들은 육아용품을 전문적(?)으로 다루지 않는다.
    • 육아용품 딜은 네이버의 맘카페에 제일 많이 올라온다.
    • 그런데 여기에는 바이럴 게시글도 상당히 많이 올라오고, 애매한 가격의 딜도 많이 올라온다.
    • 그래서 필요한 물건 키워드 알림을 해두면 공해 수준으로 알림이 많이 온다.
  • 디지털 디톡스
    • 계속해서 울리는 알림, 하지만 대부분이 쓸모없는 알림
    • 어떻게 하면 꼭 필요한 알림만 받을 수 있을까
  • +최근 셀레니움 이용하는 수업을 들었어서 한 번 써먹어 보고 싶다는 생각!

큰 흐름

  • 사실 큰 흐름이 전부이다. 구체적인 방법은 검색하거나 AI에게 물으면 나오기 때문에, 굳이 여기 더 적을 필요는 없을 것 같다.

1. 스크래핑

  • 셀레니움을 이용하여 게시글 제목과 링크, 조회수, 댓글 수, 좋아요 수, 게시 날짜 등을 스크래핑한다.
  • 검색 키워드 : Selenium, XPath/CSS Selector, sqlite3

2. 알림 보내기

  • 내가 원하는 키워드, 조회수, 댓글 수, 좋아요 수로 필터링하여 텔레그램 메신저로 알림을 받는다.
  • 검색 키워드 : Python-telegram-bot

3. 자동화하기

  • 오라클 클라우드 무료 계정을 이용해서 서버에서 주기적으로 스크래핑을 실행하고 알림을 보낸다.
  • 검색 키워드 : Oracle Cloud Free Tier (VM), Ubuntu, Crontab

조금 헤맸던 부분들/세부 내용

  • 사실 다 하고 나서 보면 별 것 아닌 것들만 있어서… 정리할게 별로 없다.

1. 스크래핑

  • 네이버 카페 게시판 구조가 최근(?), 언제인지 바뀐 것 같다.
  • iframe이 무엇인 지 정확히 모르는데, 예전에는 게시판이 iframe 내부에 불러졌던 것 같다.
  • 지금은 그렇지 않은데 네이버 카페 크롤링, 네이버 카페 스크래핑 등으로 검색하거나 AI에게 물으면 예전 기준으로 나오는 경우가 있다.
  • 결과가 잘 안 나와서 로그인 문제인 줄 알고 삽질을 하다가, 그냥 직접 html 구조 보고 셀레니움으로 스크래핑하니까 해결이 되었다.
  • 스크래핑한 정보는 db에 모으고, 30일 보관하도록 한다.
  • 조회 수, 댓글 수, 좋아요 수로 필터링하여 진짜 핫딜만 필터링하고, 사용자가 설정한 키워드가 포함된 글을 필터링할 수 있게 한다.

2. 알림 보내기

  • 찾아보니 텔레그램이 가장 간편한 것 같다.
  • 이 부분은 그렇게 어려운 지점이 없었다.
  • 텔레그램 봇 토큰은 코드에 노출되지 않게 해야한다. 안 그러면 나처럼 다시 발급받아야한다.

3. 자동화하기

  • 내 컴퓨터를 항상 켜둘 순 없으니까, 대신 항상 켜져있을 서버가 필요하다.
  • 오라클 클라우드가 무료로 사용 가능하대서 이걸로 하기로 했다.
  • 영어만 가득한 사이트라 거부감이 들 수 있으나 사용법을 잘 정리해둔 글들도 많고, GPT도 잘 알려주니 시키는대로 하면 된다.
  • 서버에 우분투를 올리고, 크롬 등 필요한 것들을 설치한 후, 한 시간마다 코드가 돌아가도록 했다.
  • 유닉스 수업 들은 걸 써먹으니 좋았다.!

결과

https://github.com/zerocola355ml/naver_cafe_crawler

profile
개발 공부하는 30대 비전공자 직장인

0개의 댓글