[SK shiedlus Rookies 23]Python(6)_24.10.22

박소민·2024년 11월 1일

Python

목록 보기

14/23

(A). Part1
= 사이트에 접속해서 웹문서를 긁어온다
▶ [[ 절차 ]]
1. 타겟 사이트 선정 및 분석

<<만족조건>>

<<방법>>

<<응답 데이터>>

웹문서 = html5 + css3 + js

       	⤷ 데이터: 👉html에 포함되어 있다
		     (*html: 문서의 구조와 콘텐츠(데이터)를 가지고 있다)

📚참고 > 데이터관점 분류

👉반정형 데이터: html, xml, json

정형데이터: 데이터베이스

비정형데이터 : 바이너리데이터, 이미지, 동영상, 음원...

(B). Part2
= raw 데이터에서 의미있는 데이터를 추출한다
▶ [[ 절차 ]]
1. html 문자열 -> 파싱

 <<방법>>

(C). 이후(생략)

[
    {
      '컬럼명':값
      ,...
    }
    ,...
  ]

(d). 특이 스타일

Ex-1 > Dev Tools = ctrl + shift + J / 우클릭 + 검사 / F12

Ex-2 > 요소[element] = ctrl + shift + I

프론트엔드 담당

Ex-3 > CSS selector

Ex-3-1 > 탐색기(str/selector/xpath) = ctrl + F

                            ↪️ css selector = "#id"로 문자하나를 특정한다.

Ex-4 > pw값 탐색

Ex-A > 텍스트 내용만 긁기

                               🔽🔽🔽

각 텍스트(말풍선) -p