# 웹 크롤링

9개의 포스트
post-thumbnail

(부록) Python Web Crawling

데이터 전처리 시리즈에 있는 Web Crawling 글과 겹치는 부분이 많습니다. 코드에 대한 복습도 진행할 겸 Python 라이브러리인 requests, selenium, Beautifulsoup에 대해 다시 공부하는 시간을 가져보도록 하겠습니다.HTTP Reques

2020년 7월 22일
·
0개의 댓글

웹 데이터 크롤링3 (Web Data Crawling)

구글 Playstore에서 게임 설명(description)을 크롤링 해보자세 종류의 game ranking 페이지에서 각 게임의 정보를 제공하는 페이지 url 추출게임 정보 제공 페이지에서 게임 설명을 추출

2020년 7월 14일
·
0개의 댓글
post-thumbnail

웹 데이터 크롤링2 (Web Data Crawling)

BeutifulSoup : HTML 코드를 Python이 이해하는 객체 구조로 변환하는 Parsing을 맡고 있으며, 이 라이브러리(모듈)을 통해 의미있는 정보를 추출할 수 있게 된다.여기에 이어서 예제를 살펴보겠습니다.from selenium import webdri

2020년 7월 14일
·
0개의 댓글
post-thumbnail

웹 데이터 크롤링 (Web Data Crawling)

Crawler 웹상의 다양한 정보를 자동으로 검색하고 색인하기 위해 검색 엔진을 운영하는 사이트에서 사용하는 SW이다. 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 수작업으로 해당 사이트의 정보를 검색하는 것이 아닌 컴퓨터 프로그램의 미리 입력된 방식에 따라 새로운 웹 페이지를 찾아 종합, 찾은 결과를 이용해 새로운 정보를 찾...

2020년 7월 13일
·
0개의 댓글
post-thumbnail

요즘 하고 있는 일

1. 업무 현재 데이터팀에서 인턴을 하고 있기는 하지만, 주로 페이퍼 업무와 데이터 구축 기획, 리서치 업무를 주로 하고 있다. 데이터 업데이트를 서포트하고 QA를 진행하기도 한다. 어제부터 기존 R 스크립트를 Python으로 포팅하는 작업을 시작하였다. 기존에 진행

2020년 6월 2일
·
0개의 댓글

python 웹 크롤링 (feat. beautifulsoup4) #1

웹 크롤링 import 사용할 모듈을 임포트하자. 이전 설치포스팅에서 언급한 requests도 함께 임포트 했다. csv 파일 만들기 html 문서 긁어오기 soup 만들기 트리 탐색하기 태그로 탐색 findAll(name, attrs, recursive, t

2020년 4월 13일
·
0개의 댓글

한라대학교 공지 알림 봇 제작기 (2) - 코딩

A. 개괄적 도식화 개괄적 도식화.png 개괄적으로 도식화를 하면 저런 모습이다. >나(client)는 학교 공지사항이 최신화 되면 알람받기를 원한다 위 목적을 해결하기 위해서는 >학교 공지사항이 최신화 되면 >알람오기를 원한다 (나에게) 위 두가지 사항을 만족시켜야 한다. 그러므로 나는 학교 공지사항이 최신화 되는지 지속적으로 확인하는 부분과 알람...

2019년 12월 30일
·
0개의 댓글

한라대학교 공지 알림 봇 제작기 (1) - 개발 환경 및 개요

A. 개요 17년 말쯤에 학교 근로장학생과 기타 공지를 확인하기 위해서 매일 학교 홈페이지에 들어갔던 기억이 난다. 매일같이 홈페이지에서 공지를 확인하는 일은 상당히 귀찮았다. 그래서 공지가 올라오면 알림을 받아보자 하고 검색을 했다. 다양한 방법이 나왔고, 난 웹 크롤링과 텔레그램으로 새 공지를 실시간으로 받았다. 1. 구글 알리미 https://www...

2019년 12월 28일
·
0개의 댓글