웹 스크래핑

김승혁·2023년 7월 13일

HTML

목록 보기
1/4
post-thumbnail

웹 스크래핑

웹 스크래핑 == 데이터를 수집하는 작업 전체

§ API를 활용하는 프로그램이나 사람이 직접 웹 브라우저를 조작하는 방법만 제외하면
어떤 방법이든 상관없음

§ 가장 널리 쓰이는 방법은,
프로그램을 만들어 웹 서버에 쿼리를 보내 데이터(HTML이나 기타 웹 페이지를 구성하
는 파일)을 요청하고, 이를 파싱해 필요한 정보를 추출하는 작업을 자동으로 하는 것

§ 웹(Web) 이란?
공간적인 개념. 전세계의 인터넷으로 연결되어 있는 모든 컴퓨터들의 집합(공간)

§ 스크래핑(Scraping)이란?
돌아다니며, 정보를 수집하는 행위

§ 웹스크래핑 = 인터넷으로 접근할 수 있는 컴퓨터에 있는 정보를 수집해오는 행위

데이터 수집 개요

데이터를 어디에서 수집할 것인가?

본인이 속한 단체에 데이터가 있다면 -> 바로 사용!
본인이 속한 단체에 데이터가 없다면 -> 웹 상에 공유되어 있는 데이터를 수집한다.

웹 상에 공유되어 있는 데이터를 얻는 방법은 크게 2가지.

  1. 분석용 데이터를 제공하는 플랫폼에서 공유데이터를 얻는 방법
  2. 크롤러 프로그램으로 웹 상에 공유되어 있는 데이터를 얻는 방법

• AIHub : https://www.aihub.or.kr/
• Kaggle : https://www.kaggle.com/
• Dacon : https://dacon.io/

• 공공데이터포털 : https://www.data.go.kr/

이 외에도 여러 플랫폼이 많이 있으나 충분한 양질의 데이터가 많지는 않다.

웹 스크래핑이란 무엇인가

웹 스크래핑 = 웹 + 스크래핑

인터넷으로 접근할 수 있는 컴퓨터에 있는 정보를 수집해오는 행위

§ 웹(Web) 이란?
공간적인 개념. 전세계의 인터넷으로 연결되어 있는 모든 컴퓨터들의 집합(공간)

§ 스크래핑(Scraping)이란?
돌아다니며, 정보를 수집하는 행위

§ 클라이언트 : 데이터를 요청하는 프로그램 : 브라우저, 크롤러 프로그램
§ 서버 : 데이터를 보유하고 있는 컴퓨터 : naver.com 등

**크롤러를 만든다는 것은

“브러우저를 대신하는 프로그램”을

만든다는 것**

정보를 얻는법

우리는 어떻게 브라우저를 통해

웹 상에서 정보를 얻는가?

  1. 브라우저에 URL을 입력하여 원하는 웹페이지에 접근한다
  2. 전체 페이지 중에서 원하는 정보를 찾는다.

크롤러를 만든다는 것은 “브라우저를 대신하는 프로그램”을 만든다는 것

브라우저 -> 크롤러

  1. 크롤러에 URL을 입력하여 원하는 웹페이지에 접근한다
  2. 전체 페이지 중에서 원하는 정보를 찾는다.

크롤링 해야 할 데이터는 누구인가?

웹 상의 데이터 -> HTML 혹은 JSON

HTML :
HyperText Markup Language
하이퍼텍스트를 중요한 특징으로 하는
마크업이라는 형식을 가진 언어

• HTML은 Hyper Text Markup Language의 줄임말입니다.

• Hyper Text는 단순한 텍스트를 넘어서 웹 페이지의 특정 부분과 연결할 수 있는 기능을 가진 텍스트 즉, 링크를 의미합니다.

• Markup Language는 프로그래밍 언어의 한 종류로정보를 구조적, 계층적으로 표현 가능하다는 특징이 있습니다.

• HTML은 파일 확장자로 .html을 쓰며, 그 파일 안에 html 코드를 작성하게 됩니다.

우리에게 필요한 것은 백지에서 화려하고 복잡한 웹페이지를 창조하는 일이 아닙니다.

우리는 웹페이지 속 내가 원하는 정보가

HTML 파일 중 “어떤 부분”에 해당하는 지만 파악하면 됩니다.

즉, 간단한 구조만 파악할 수 있으면 됩니다.

HTML

기초

HTML은 사람의 언어(자연어)와 다른 고유의 작성방법을 가지고 있다.

요소(Element)

• 태그는 <, > 기호로 표현하며 <, > 기호 사이에 태그 이름이 들어갑니다.

• 대부분 태그는 시작 태그와 종료 태그로 이루어지며 종료 태그는 태그 이름 앞에 '/' 기호가 붙습니다.

• 시작 태그와 종료 태그 사이에 실제 화면에 나타나는 내용이 위치하게 됩니다.

• 내용을 포함한 태그 전체를 요소(Element)라고 합니다.

혼저옵서예

이 태그는

를 사용해 '혼저옵서예’라는 본문을 출력하는 코드입니다.

종류

문법

텍스트에 링크를 추가하고 싶다면?

HTML의 기본 구성 요소 à Element(요소), Tag(태그)

태그의 동작을 좀 더 구체적으로 제어하고 싶다면?

예를 들어, 고유한 이름을 주거나, 이동할 경로를 주거나, 색깔을 지정하거나

구체적인 기능을 제공하고 싶다면?

속성(Attribute)

태그 중첩

웹 페이지 문서 안에 이미지를 추가하려면?

빈 태그란?
태그는 기본적으로 시작 태그와 종료 태그가 한 쌍으로 이루어져 있고, 그 안에 "내용”이 들어갑니다.
하지만, 빈 태그는 “내용”이 없어서 종료 태그가 필요하지 않습니다.

• 빈 태그의 특징
• 빈 태그는 보통 “속성”을 이용해서 화면에 출력하거나 다른 용도로 사용됩니다.
• 빈 태그는 내용이 없어서 종료 태그가 필요하지 않습니다
• 중첩이 불가능합니다.

문서 구조

HTML 문서는 공통적으로 가지고 있는 기본 구조가 있다

업로드중..

스크래핑을 위한 필수 문법

CLASS

업로드중..

업로드중..

Class & ID

class는 여러 요소를 그룹화하고 스타일 또는 동작을 적용하기 위해 사용되는 속성입니다.
id는 단일 요소를 고유하게 식별하고 스타일 또는 동작을 적용하기 위해 사용됩니다.

class는 여러 요소에 적용 가능하며 우선순위가 낮으며,
id는 단일 요소에 적용 가능하며 우선순위가 높습니다.

HTML 문법 정리

  1. 요소

  2. 속성

  3. 요소의 중첩

4.빈 태그

  1. 문서의 구조

  2. 필수 속성 – CLASS & ID

profile
어떻게 오셨나요

0개의 댓글