프로젝트 진행일지 #2

­최상언·2020년 7월 7일
0

한 것

  • 7개 사이트 (다음뉴스, 블로그, 쿠팡, 야후뉴스, 디시인사이드, 디시갤, 동아뉴스) 돔 그래프 분석
  • depth 별 hit 수는 그닥 유의미하지 않으나
  • 일단 눈으로 찾을 수 있는 블럭은 실제 반복 html 구조임 확실
  • 반복 구조를 이루는 데이터의 종류는 - 카테고리 혹은 게시판 탭, 선택 옵션, 상품 혹은 게시물 등 주요 데이터, 날씨, 연관검색어, 광고, 사이트 정보 등이 있음
  • 대원님이 depth-hit 그래프 그리는 코드 주심!

idea: 블록 어림하기 -> 유닛 찾기

  • 접근: depth별 누적빈도의 양상을 분석하여 블록의 시작점과 끝점을 파악한다.
  • 기울기를 이용

트러블

  • 누적빈도 그래프는 discrete하여 미분 불가하며
  • f(n+1) - f(n) = 0 또는 1 이므로 dx 조절 불가피함

해결방안

  • X축(index) compress!
  • 구간별 증가폭을 측정하여
  • f(x) > α 인 x 구간을 얻는다

결정해야 할 것

  • 구간길이 c. ex)10
  • 임계값 α. ex) f(len(x))/len(x)

이후

  • 블록의 시작점을 포함하고 있을 것으로 추정되는 구간의 최대값
    ~ 블록의 종료점을 포함하고 있을 것으로 추정되는 구간의 최소값
    을 블럭(의 내부)일 것이라고 추정할 수 있음
  • 따라서 유효구간 내 min(depth)를 유닛의 시작점일 것이라고 예측 가능
  • min(depth)가 반복되는 양상 관찰

발견!

보석님의 참여(?)로 알게된 몇 가지

  • 지금까지 구현한 것들만 가지고도 데이터를 꽤 정리된 형태로 추출할 수 있음.
  • 엑셀로 저장한 것 가공하기
  • Xpath로 값 가져오기

할 것

대원님이 코드 주시면 (c=10)

  • 여러 url 그래프 양상 보면서 우리의 가설이 맞는지 확인하고 (제발)
  • 맞다면 c, α 어떻게 정하면 좋을지 고민
profile
배울게 많은 햇병아리 개발자

0개의 댓글