인프런 이것이 웹 크롤링이다(기초편)을 6월에 수강했고 7월에 한 번 더 반복해서 들었다. 무료 강의이고 2시간 30분 내외로 짧지만 유익한 편이었다. 이후 이것이 웹 크롤링이다(실전편)도 추가로 수강했다.
강의를 재미있게 잘 가르치고, 파이썬/Visual Studio Code 설치, HTML/태그, Request, CSS Selector 등에 대해서도 짧은 시간이지만 포인트를 잘 살려서 설명한다는 생각이 들었다.
실습 부문에 있어서는 네이버 뉴스, 네이버 쇼핑, 주식 정보 수집에 대해서 대략적으로 배운다. 코드를 작성할 수는 없지만 Selenium, BeautifulSoup, Pyautogui, Openpyxl 등 패키지를 활용했다. 초기 회사 업무 적응하는 데에 많은 도움을 받았다.
[주요 개념 정리]
HTML : 웹페이지의 구조를 나타내기 위한 언어. 태그로 구성되어 있음
태그 : 꺾쇠 괄호로 표시. 시작 태그와 종료 태그로 구성. 태그는 속성명과 속성값이 있을수 있음. 태그는 부모태그와 자식태그로 구성됨
div: 구역 나누기
a : 링크
h1 : 제목
p : 문단
ul, li : 목록
Requests : HTTP 통신을 위한 파이썬 라이브러리(프로그램 개발을 쉽게 하기 위한 도구)
HTTP 통신 방법의 종류
(1) GET : 정보 줘 - 응답
(2) POST : 아이디, 비번 - 응답
Beautifulsoup : HTML 분석을 위한 파이썬 라이브러리
CSS Selector : 웹사이트의 디자인 표시하기 위한 언어. 글자색 변경, 폰트 크기, 가로 세로 길이 변호
태그 선택자 지정시 ex. h1, a
id 선택자 지정시 ex. #(id값)
class 선택자 지정시 ex. .(class값)
URL : Protocol + Domain + Path + Parameter
Pyautogui : 마우스, 키보드 매크로 라이브러리
Selenium : 브라우저를 띄워서 사람처럼 동작하도록 만들수 있음
무한 스크롤 처리 자바스크립트 명령어를 이용 window.scrollY