[Review] 이것이 웹 크롤링이다(기초편) 수강기

윤진호·2022년 7월 14일
0

Review

목록 보기
6/17

인프런 이것이 웹 크롤링이다(기초편)을 6월에 수강했고 7월에 한 번 더 반복해서 들었다. 무료 강의이고 2시간 30분 내외로 짧지만 유익한 편이었다. 이후 이것이 웹 크롤링이다(실전편)도 추가로 수강했다.

강의를 재미있게 잘 가르치고, 파이썬/Visual Studio Code 설치, HTML/태그, Request, CSS Selector 등에 대해서도 짧은 시간이지만 포인트를 잘 살려서 설명한다는 생각이 들었다.

실습 부문에 있어서는 네이버 뉴스, 네이버 쇼핑, 주식 정보 수집에 대해서 대략적으로 배운다. 코드를 작성할 수는 없지만 Selenium, BeautifulSoup, Pyautogui, Openpyxl 등 패키지를 활용했다. 초기 회사 업무 적응하는 데에 많은 도움을 받았다.

[주요 개념 정리]

  • HTML : 웹페이지의 구조를 나타내기 위한 언어. 태그로 구성되어 있음

  • 태그 : 꺾쇠 괄호로 표시. 시작 태그와 종료 태그로 구성. 태그는 속성명과 속성값이 있을수 있음. 태그는 부모태그와 자식태그로 구성됨

    div: 구역 나누기
    a : 링크
    h1 : 제목
    p : 문단
    ul, li : 목록

  • Requests : HTTP 통신을 위한 파이썬 라이브러리(프로그램 개발을 쉽게 하기 위한 도구)

  • HTTP 통신 방법의 종류
    (1) GET : 정보 줘 - 응답
    (2) POST : 아이디, 비번 - 응답

  • Beautifulsoup : HTML 분석을 위한 파이썬 라이브러리

  • CSS Selector : 웹사이트의 디자인 표시하기 위한 언어. 글자색 변경, 폰트 크기, 가로 세로 길이 변호

    태그 선택자 지정시 ex. h1, a
    id 선택자 지정시 ex. #(id값)
    class 선택자 지정시 ex. .(class값)

  • URL : Protocol + Domain + Path + Parameter

  • Pyautogui : 마우스, 키보드 매크로 라이브러리

  • Selenium : 브라우저를 띄워서 사람처럼 동작하도록 만들수 있음

  • 무한 스크롤 처리 자바스크립트 명령어를 이용 window.scrollY

profile
데이터 분석가

0개의 댓글