파싱(Parsing)은 어떤 웹 페이지에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여정보로 가공하는 것을 뜻한다.
인터프리터나 컴파일러의 구성 요소 중 하나이며, 입력 토큰에 내제되어 있는 자료구조를 빌드하고 문법을 검사하는 역할을 한다.
즉, 파싱은 일련의 정보를 분석하고 가공하는 것이라 할 수 있다.
예) 호랑이가 노루를 사냥한다
1.호랑이가 노루를 2.사냥한다
1.호랑이가 2.노루를 3.사냥한다
1.호랑이2.가 3.노루4.를 4.사 5.냥 6.한 7.다
크롤링(Crawling)은 URL을 탐색해 반복적으로 링크를 찾고 가져오는 과정' 이다.
스크래핑은 '우리가 정한 특정 웹 페이지에서 데이터를 추출하는 것'이다.
예) 인기 검색어 정보 가져오기, 특정 주제의 뉴스만 가져오기 ...
크롤링과 스크래핑은 모두 정보를 추출해온다는 공통점이 존재한다.
하지만
타켓 웹 페이지의 유무와중복제거의 실행 여부에서 차이가 난다.
크롤링은 특정 웹 페이지를 목표로 하지 않으며 중복제거가 필수적이다.
탐색을 먼저 하고 정보를 가져오는선탐색 후추출방법이며 중복 제거가 필수가 아니다.
스크래핑은 목표로 하는 특정 페이지가 있으며 그 정보를 어디서 가져올지 타겟이 분명하고 그 타겟에서 정보를 가져오는선결정 후추출방법을 사용한다.