데이터 스크래핑 개요

0

웹 스크래핑 : 웹에서 중요한 파일들만 긁어오는 것
웹 크롤링 : 무지성으로 다 긁어오는 것

웹 사이트 3대 요소
HTML : 뼈대를 만들기
CSS 디자인요소를 담당함
JS : 유용한 것들을 만드는 툴

웹 크롤링의 허용 범위

결론적으로 합법, 검색엔진도 어떻게 보면 일종의 크롤링을 하고있으므로
그러나 돈을 벌기 위해 사용한다거나 하는 것은 저작권 문제가 될 수 있음

카피레프트 : 개념, 정보등은 자유롭게 공유되어야 한다 ex)리눅스
카피라이트 : 저작권 보호의 측면을 강조

robots.txt를 확인하면 어떤부분은 크롤링해도 되고 안되는지가 나와있음
(법적권한이 있는것은 아니고 권고 사항임)

딥러닝 : '많은' 데이터를 일반화 하여 AI가 판단의 기준으로 삼도록 하는 과정

어노테이터(직무) : 데이터를 수집하고 레이블링하는 사람

가상환경

  • 파이썬이나 라이브러리 버전이 다른 프로젝트가 있을 수 있으므로 설정해줌

xpath : 그림이 위치하는 경로 -> 원하는 부분만 가져올 수 있음

0개의 댓글