1) 크롤링이란 데이터를 불러 오는 것
2) 파싱이란 불러온 데이터에서 필요한 정보를 뽑아내는 것
3) 스크래핑이란 데이터를 수집하는 모든 작업이며 크롤링보다 큰 범위의 용어이다.
1) 직접 데이터를 뽑는 방법
2) API를 호출 하는 방법
크롤링 권고안을 robots.txt에서 확인해야 한다.
연구, 개발 목적으로 크롤링을 한다면 IP를 차단당하지 않지만 과한 크롤링 작업은 차단당할 수 있다.
1) HTTP (Hypertext transfer protocol): 서버와 클라이언트가 인터넷상에서 데이터를 주고받기 위한 프로토콜
2) HTTP 통신과정: 사용자의 동작 -> HTTP request를 서버로 보낸다 -> 서버에서 response를 웹으로 보낸다.
3) HTTP 메세지는 요청 양식에 맞게 보내야 원하는 응답을 얻을 수 있다.
4) HTTP 메세지 포맷: 요청 URL, 요청 method으로 get, post 등이 있다.
get은 정보를 요청하기 위해 사용(select), post는 정보를 입력하기 위해 사용(insert)한다.
put
5) URL: 파일이나 데이터와 같은 리소스의 위치를 알려주기 위한 프로토콜이다.
6) 파라미터
1) HTML(Hyper text markup language): 웹 페이지를 작성하기 위한 문법
2) Tag