(A). Part1
= 사이트에 접속해서 웹문서를 긁어온다
▶ [[ 절차 ]]
1. 타겟 사이트 선정 및 분석
<<만족조건>>
접속<<방법>>
웹문서를 긁어온다<<응답 데이터>>
웹문서 = html5 + css3 + js
⤷ 데이터: 👉html에 포함되어 있다
(*html: 문서의 구조와 콘텐츠(데이터)를 가지고 있다)
📚참고 > 데이터관점 분류
- 👉반정형 데이터: html, xml, json
- 정형데이터: 데이터베이스
- 비정형데이터 : 바이너리데이터, 이미지, 동영상, 음원...
(B). Part2
= raw 데이터에서 의미있는 데이터를 추출한다
▶ [[ 절차 ]]
1. html 문자열 -> 파싱
DOM[돔]/(문서객체모델) - 탐색 (CSS selector xpath)데이터 추출 <<방법>>
Parser (*모든 파싱도구에는 Parser에 대한 표현이 나온다.)(C). 이후(생략)
[
{
'컬럼명':값
,...
}
,...
]
(d). 특이 스타일
Ex-1 > Dev Tools = ctrl + shift + J / 우클릭 + 검사 / F12

Ex-2 > 요소[element] = ctrl + shift + I


ctrl + F
↪️ css selector = "#id"로 문자하나를 특정한다.Ex-4 > pw값 탐색



🔽🔽🔽각 텍스트(말풍선) -p