프로젝트 진행일지 #2

최상언·2020년 7월 7일

0

그래프+돔트리 분석

목록 보기

3/4

한 것

7개 사이트 (다음뉴스, 블로그, 쿠팡, 야후뉴스, 디시인사이드, 디시갤, 동아뉴스) 돔 그래프 분석
depth 별 hit 수는 그닥 유의미하지 않으나
일단 눈으로 찾을 수 있는 블럭은 실제 반복 html 구조임 확실
반복 구조를 이루는 데이터의 종류는 - 카테고리 혹은 게시판 탭, 선택 옵션, 상품 혹은 게시물 등 주요 데이터, 날씨, 연관검색어, 광고, 사이트 정보 등이 있음
대원님이 depth-hit 그래프 그리는 코드 주심!

idea: 블록 어림하기 -> 유닛 찾기

접근: depth별 누적빈도의 양상을 분석하여 블록의 시작점과 끝점을 파악한다.
기울기를 이용

트러블

누적빈도 그래프는 discrete하여 미분 불가하며
f(n+1) - f(n) = 0 또는 1 이므로 dx 조절 불가피함

해결방안

X축(index) compress!
구간별 증가폭을 측정하여
f(x) > α 인 x 구간을 얻는다

결정해야 할 것

구간길이 c. ex)10
임계값 α. ex) f(len(x))/len(x)

이후

블록의 시작점을 포함하고 있을 것으로 추정되는 구간의 최대값
~ 블록의 종료점을 포함하고 있을 것으로 추정되는 구간의 최소값
을 블럭(의 내부)일 것이라고 추정할 수 있음
따라서 유효구간 내 min(depth)를 유닛의 시작점일 것이라고 예측 가능
min(depth)가 반복되는 양상 관찰

발견!

보석님의 참여(?)로 알게된 몇 가지

지금까지 구현한 것들만 가지고도 데이터를 꽤 정리된 형태로 추출할 수 있음.
엑셀로 저장한 것 가공하기
Xpath로 값 가져오기

할 것

대원님이 코드 주시면 (c=10)

여러 url 그래프 양상 보면서 우리의 가설이 맞는지 확인하고 (제발)
맞다면 c, α 어떻게 정하면 좋을지 고민

배울게 많은 햇병아리 개발자

이전 포스트

프로젝트 진행일지

다음 포스트

프로젝트 진행일지 #3

0개의 댓글