한 것
- 7개 사이트 (다음뉴스, 블로그, 쿠팡, 야후뉴스, 디시인사이드, 디시갤, 동아뉴스) 돔 그래프 분석
- depth 별 hit 수는 그닥 유의미하지 않으나
- 일단 눈으로 찾을 수 있는 블럭은 실제 반복 html 구조임 확실
- 반복 구조를 이루는 데이터의 종류는 - 카테고리 혹은 게시판 탭, 선택 옵션, 상품 혹은 게시물 등 주요 데이터, 날씨, 연관검색어, 광고, 사이트 정보 등이 있음
- 대원님이 depth-hit 그래프 그리는 코드 주심!
idea: 블록 어림하기 -> 유닛 찾기
- 접근: depth별 누적빈도의 양상을 분석하여 블록의 시작점과 끝점을 파악한다.
- 기울기를 이용
트러블
- 누적빈도 그래프는 discrete하여 미분 불가하며
- f(n+1) - f(n) = 0 또는 1 이므로 dx 조절 불가피함
해결방안
- X축(index) compress!
- 구간별 증가폭을 측정하여
- f(x) > α 인 x 구간을 얻는다
결정해야 할 것
- 구간길이 c. ex)10
- 임계값 α. ex) f(len(x))/len(x)
이후
- 블록의 시작점을 포함하고 있을 것으로 추정되는 구간의 최대값
~ 블록의 종료점을 포함하고 있을 것으로 추정되는 구간의 최소값
을 블럭(의 내부)일 것이라고 추정할 수 있음
- 따라서 유효구간 내 min(depth)를 유닛의 시작점일 것이라고 예측 가능
- min(depth)가 반복되는 양상 관찰
발견!
보석님의 참여(?)로 알게된 몇 가지
- 지금까지 구현한 것들만 가지고도 데이터를 꽤 정리된 형태로 추출할 수 있음.
- 엑셀로 저장한 것 가공하기
- Xpath로 값 가져오기
할 것
대원님이 코드 주시면 (c=10)
- 여러 url 그래프 양상 보면서 우리의 가설이 맞는지 확인하고 (제발)
- 맞다면 c, α 어떻게 정하면 좋을지 고민