[웹 크롤링] 크롤링 개요

bucket ·2023년 11월 3일
0

웹 크롤링

목록 보기
1/6

1. 크롤링이란?

1) 크롤링이란 데이터를 불러 오는 것
2) 파싱이란 불러온 데이터에서 필요한 정보를 뽑아내는 것
3) 스크래핑이란 데이터를 수집하는 모든 작업이며 크롤링보다 큰 범위의 용어이다.

2. 크롤링 방법

1) 직접 데이터를 뽑는 방법

  • 장점: 원하는 대로 데이터 가공 가능
  • 단점: 데이터를 직접 가공

2) API를 호출 하는 방법

  • 장점: 정제된 데이터 획득 가능
  • 단점: API 호출 방식 학습 필수

3. 크롤링 할 때 주의사항

크롤링 권고안을 robots.txt에서 확인해야 한다.

연구, 개발 목적으로 크롤링을 한다면 IP를 차단당하지 않지만 과한 크롤링 작업은 차단당할 수 있다.

4. HTTP와 웹 작동방식

1) HTTP (Hypertext transfer protocol): 서버와 클라이언트가 인터넷상에서 데이터를 주고받기 위한 프로토콜

2) HTTP 통신과정: 사용자의 동작 -> HTTP request를 서버로 보낸다 -> 서버에서 response를 웹으로 보낸다.

3) HTTP 메세지는 요청 양식에 맞게 보내야 원하는 응답을 얻을 수 있다.

4) HTTP 메세지 포맷: 요청 URL, 요청 method으로 get, post 등이 있다.

get은 정보를 요청하기 위해 사용(select), post는 정보를 입력하기 위해 사용(insert)한다.
put

5) URL: 파일이나 데이터와 같은 리소스의 위치를 알려주기 위한 프로토콜이다.

6) 파라미터

5. HTML, Tag

1) HTML(Hyper text markup language): 웹 페이지를 작성하기 위한 문법

2) Tag

0개의 댓글