Crawling(크롤링)을 해보자

hyunwoo·2023년 2월 16일

토이 프로젝트

목록 보기
1/1

목표: 컴과 홈페이지에서 교수님 성함을 뽑아보자

크롤링(Crawling) 또는 스크래핑(Scraping)으로 혼동해서 쓰인다.

크롤링은 필요한 데이터가 있는 웹(Web)페이지의 구조를 분석하고 파악하여 긁어온다.
데이터를 추출한다로 설명할 수 있으며 크롤링이라는 행위를 하는 소프트웨어를 크롤러(Crawler)라고 부른다.

출처: https://modulabs.co.kr/blog/crawling-tips/

Jsoup

  • 자바에서 제공하는 HTML parser 이다.

jsoup는 HTML5 DOM methods and CSS selectors (HTML5 Dom 메서드와 CSS 선택자)를 사용하여 파싱을 도와주는 자바용 라이브러리이다.

jsoup을 이용하기 위해서 의존성은 Jsoup 공식사이트에서 확인하였다.

    // jsoup HTML parser library @ https://jsoup.org/
    implementation 'org.jsoup:jsoup:1.15.3'

DOM 이란?

문서 객체 모델(The Document Object Mode) 은 HTML, XML 문서의 프로그래밍 interface 이다.
DOM은 문서의 구조화된 표현을 제공하며 프로그래밍 언어가 DOM 구조에 접근할 수 있는 방법을 제공하여 그들이 문서 구조, 스타일, 내용 등을 변경할 수 있게 돕는다.
DOM 은 nodes와 objects로 문서를 표현한다. 이들은 웹 페이지를 스크립트 또는 프로그래밍 언어들에서 사용될 수 있게 연결시켜주는 역할을 담당한다.

출처: https://developer.mozilla.org/ko/docs/Web/API/Document_Object_Model/Introduction

0개의 댓글