Day15

Ju-Young Han·2024년 2월 3일

python

목록 보기
22/22

크롤링

웹크롤링이란
인터넷에 있는 웹 페이지를 자동으로 탐색하고 정보를 수집하는 과정이다. 이를 수행하는 소프트웨어를 크롤러 또는 스파이더라고 한다.(crawler, spider)
왜 필요하나?
데이터 수집: 웹사이트에서 유요한 정보를 대량으로 수집할 수 있다.
검색엔진 최적화: 웹사이트와 콘텐츠를 검색 엔진에 인텍싱하기 위해 사용한다.
시장 조사: 경쟁사 웹사이트 분석, 고개길뷰 수집 등에 활용한다.

크롤링 과정
1. 시작 url 선택: 크롤링을 시작 할 웹페이지 주소를 선택한다.
2. 링크 탐색: 페이지에 있는 링크를 찾아 다른 페이지로 이동한다.
3. 데이터 추출: 원한느 정보를 추출한다.
4. 반복: 다른 페이지로 이동하여 이 과정을 반복한다.

HTML 태그(Tags)
웹페이지의 기본 구성요소

테그 형식 으로 작성되고, 대부부의 태그는 시작태그 와 /tags종료 태그로 구성된다.

는 단락을 나타내는 태그이다.

ID 속성
HTML 요소에 고유한 식별지를 ㅔㅈ공한다.
페이지 내에서 유일해야 하며, 주로 javascipt나 css에서 요소를 식별할 때 사용된다.

0개의 댓글