프로젝트 회의 w/대원, 보석님

­최상언·2020년 7월 2일
0

TIL

  • CDN; Contents Delivery Network : 내가 이해한대로라면, 요청이 있을때마다 네트워크를 통해 라이브러리를 import하는 방식. JQuery, bootstrap, font 등 내 코드가 아닌 외부의 무언가를 받아서 사용하려면 CDN이 반드시 필요함.
  • response로 받아오는 html 파일은 개발자가 직접 작성한, JS가 동작하기 전 날것 그대로! 빈깡통 html을 반환하는 사이트는 전부 JS로 자동생성 해 줄 것임. 사실 그게 당연함. 그런데도 불구하고 html 소스 내에 데이터가 들어가있는 경우도 꽤 많음. 도대체 왜?
  • 빈깡통 html을 반환하는 경우 JS 해석기(?)를 만들어서 알찬깡통을 만들 수 있을 것으로 기대.
  • 그런데 대형 사이트는 자기 도메인이 아니면 JS 동작하지 않도록 보안정책 설정해 둔 경우가 있음. 이건 나중에 고민할 일.

할 것

업무

  • 데모 구현 = 가장 단순하고 구조적인 사이트 한두개로, 그래프에서 반복 패턴 가진 블록에 있는 모든 데이터를 크롤링할 수 있는지 테스트
  • 최우선은 반복 패턴 탐지할 수 있는 방법 찾아내기

자기개발

  • React 공부. 왜들 그렇게 공부하라고 했는지 체감중ㅋ
  • toy project! 나한테 진짜 필요한거지 않나 싶다. 업무 외에, 내가 진짜 재밌게 만들어서 결과물까지 낼 수 있는거. ex) 인환이 사진첩
  • 프로젝트는 반드시 포트폴리오 형식으로 남겨 놓을 것
  • nomad 아저씨 유투브든 뭐든 아무튼 좀 보기
  • rendering 뭔지 좀 제대로 이해하기
  • 변변찮아도 내코드 다시 보고 주석 달며 이해하기
  • python class, def 등등 공부하면서 나만의 텍스트북 만들기
  • 알고리즘 / 자료구조 공부. 이건 인강도 있잖아 ㅜ ㅜ (python 공부는 덤)

idea

  • 테이블 리스트는 반복된다. 는 생각에서 출발하여
  • depth array, 이를 이용한 graph까지 만들어 본 상태 (대원님이ㅋ)
  • 여기서 패턴을 찾는게 관건인데
  • 생각해보니까 반복되면, Xpath든 뭐에든 nth-child[60] 따위로 그 반복값이 남게 마련. 이걸로 블록 찾으면?
  • f(x) = f(x+n)인 구간 및 n 찾기 -> 블록 찾을 수???
  • depth histogram 내림차순 정렬하여 값이 높은 것 부터 f(x) = y 인 x 값의 분포 확인. -> 블록 찾기
profile
배울게 많은 햇병아리 개발자

0개의 댓글