techit aischool summary

김상민·2023년 1월 12일
0

aischool

목록 보기
8/9

오늘은 웹 스크래핑을 배웠다.

보통 정보 수집하고 싶은 사이트를 방문해서 F12 로 경로를 찾고 파이썬으로 수집하는 것이다

하지만...!

인위적으로 하나의 아이피에서 많은 접속이 일어나면 차단 당할 수 있다.

BeautifulSoup

여기서 중요한 3가지가 있다.

  1. 크롤링
    크롤링은 웹 인덱싱을 위해 WWW를 체계적으로 탐색해나가는 것을 의미합니다. 크롤러가 하는 행위(WWW를 탐색해나가는 행위 등)를 바로 ‘크롤링’ 이라고 합니다.

  2. 파싱
    웹 파싱은 웹 상의 자연어, 컴퓨터 언어 등의 일련의 문자열들을 분석하는 프로세스입니다.

  3. 스크래핑

웹 스크래핑은 다양한 웹사이트로부터 데이터를 추출하는 기술을 의미합니다.

정의를 살펴보면, 흔히 사용되는 용어 ‘크롤러’는 데이터 추출의 의미보다 웹 사이트를 탐색하고, 인덱싱 하는 것에 더 중점적인 의미를 갖고 있는 것 처럼 보입니다. 따라서 이번 글 에서는 ‘웹 크롤링’ 이라는 단어의 사용보다 ‘웹 파싱’ 이라는 단어를 사용하겠습니다. (각각의 용어에 대한 해석은 다를 수 있습니다.

네이버증권 종목토론방 정보를 수집해보자!

profile
꾸준히 하고싶다

0개의 댓글