웹개발 3주차 개발일지

yg lim·2022년 6월 5일
0

웹개발

목록 보기
3/7
  1. 크롤링의 시작
    긁어오기를 위해 리퀘스트 패키지를 이용한다.
    여기서 긁어온 것은 콘텐츠와 그것을 잘 보여주기 위해 사용하였던 html 태그, 그래서 우리는 콘텐츠를 잘 가져와야함.

  2. 크롤링의 핵심
    긁어온 것에서 내가 원하는 콘텐츠를 뽑기 위해서 뷰티풀숩 패키지를 사용함. 잘 만들어진(!) 홈페이지에는 잘 정렬된 데이터들이 있고, 이 규칙성을 이용하여 일관된 코드를 선택하여 추출을 잘해야함. 그리고 규칙성을 이용하기 위해 반복문을 잘써야함. 크롬의 개발자도구를 사용하여 소스선택을 하고, 그 전에 홈페이지의 소스를 파악하는 것이 중요함.

  3. 크롤링의 마무리
    구슬이 서말이라도 꿰어야 보배라는 말이 있듯이 이걸 잘 저장하여 '잘 활용되도록'하는 것이 필요하며, 이를 위한 도구가 DB임. DB는 잘 정리된 틀에다가만 처리하는 방식과 유연하게 확장된 형태가 있음. 아마 추측건대, 후자의 방법이 해시태그와 비슷하다고 생각했음. 해시태그가 변수역할을 하지만 모든 게시물에 붙지는 않듯이 확장성이 자유로우니까. 그래서 몽고DB를 활용함. pymongo 패키지를 설치하여 실시간으로 DB에 저장, 찾기, 수정하기, 삭제하기를 할 수 있다. 그리고 로보3t를 통해 '눈으로' 확인할 수 있다.

https://www.mongodb.com/try/download/community
https://github.com/Studio3T/robomongo/releases

  1. 크롤링의 활용처
    결국 정보의 쓰임새는 공개와 활용에 있으므로, 이걸 잘 서빙해주는 서버가 필요해질 것이다. 이게 다음이겠지...기대된다....ㅋㅋㅋㅋ

  2. 나의 활용처
    나중에 내가 중독적으로 들었던 음악DB를 구축하면 재밌을 것 같다. 그냥 그렇게 들었던 시기, 간단한 코멘트, 공식(?)URL을 적는 메모장이 있으면 좋겠다.

  3. 이번주의 개발일지(?)
    개발일지일지 소감일지는 모르겠지만 인터넷을 검색해서 찔끔찔끔 알아가다가 강의를 들으니까 이해가 잘 가서 좋았다. 역시 교육서비스는 백문이 불여일견...아무리 읽어도 실시간(?)으로, 연속된 동작으로 보는 것이 가장 좋다.

profile
who want to find sth new!

0개의 댓글