# beautifulsoup

[PYTHON] 스크랩핑 기초
스크랩핑이란? 어렸을 적 신문지에서 우리가 좋아하던 아이돌 또는 뉴스 기사를 오려다가 공책에 붙이는 행위를 스크랩하는 것이라고 들어봤을 것이다. 학교 숙제로도 많이 했었던 기억이 난다. 인터넷 상에서 우리가 필요한 정보를 어떠한 웹페이지에서 가져오는 것, 그것을 스크랩핑이라고 한다. 크롤링 스크랩은 한 페이지에서 특정 정보를 가져오는 것이라고 하면 크롤링은 그 페이지 자체를 가져오는 것이다. 준비 과정 우리가 필요한 정보를 가진 웹 페이지 소스 코드 편집기(Visual Studio Code) python > https://www.python.org/downloads/ pip > https://bootstrap.pypa.io/get-pip.py > 위 URL에서 다운받은 get-pip.py 가 있는 경로에서 cmd 명령어 입력 > py get-pip.py BeautifulSoup4 > pip install beautifulso
[python] N블로그 자동화 마케팅 프로그램 완성 (23/08/06)
프로그램 사진 | ---|---| 실행영상 백그라운드 모드로 변경하고.. 상세분석 페이지 만들고.. GUI 구성변경하기.. 항상 할 때마다 느끼는 거지만 역시 디자인이랑은 맞지 않는것 같네요.. 이미 완성한지 한달정도 지났지만.. 테스트를 위해서 3분한테 데모버전 보내서 버그 수정을 좀 많이했네요. 현재 인스타그램

[python] 네이버 블로그용 자동 매크로 제작기 (23/06/27 GUI 완성)
허접한 UI 및 기능 40% 완성.. selenium 과 BeautifulSoup 사용 https://blog.naver.com/kinjihong/223139727424

BeautifulSoup & Selenium 로 웹 스크래핑 하기(2)
이전 게시글에 이어서, 동적인 페이지에서 BeautifulSoup과 Selenium을 사용하여 원하는 데이터를 웹 크롤링 & 웹 스크래핑 하기 위해 진행한 과정의 일부분을 기록해 보도록 하자 ✍️ jupyter > Jupyter는 대화형 계산 환경을 제공하는 오픈 소스 프로젝트 Jupyter는 주로 데이터 분석, 과학 연구, 교육 목적으로 사용되며, 특히 Python 프로그래밍 언어를 위해 널리 알려져 있다고한다. jupyter 설치하기 pip install jupyter 설치 jupyter notebook 실행 requests와 BeautifulSoup으로 시도해보기 Selenium을 사용하기 전 했을때 결과가 알 수 없는 문자열로

requests & BeautifulSoup & Selenium 에 대해 / requests로 웹 스크래핑 하기 (1)
웹 데이터를 가져오기 위한 절차 타겟 웹사이트 조사: 크롤링하려는 웹사이트의 구조와 URL 패턴을 파악 Request: 웹사이트의 데이터를 가져오기 위해 해당 웹사이트에 요청 HTML 응답 파싱: 받아온 HTML 응답을 파싱하여 필요한 데이터를 추출 데이터 저장: 추출한 데이터를 원하는 형식으로 저장 (CSV, JSON 등) 반복: 모든 원하는 데이터를 크롤링할 때까지 2-4단계를 반복 Requests > 웹사이트에 접근하여 데이터를 가져오기 위한 라이브러리이다. Python에서 HTTP 요청을 보내기 위한 인기 있는 라이브러리이다. 웹 상의 데이터를 가져오거나 API와 상호작용하는 등의 다양한 작
증권 정보 가져오기
본 내용은 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술 강의를 들으며 실습하는 과정을 기록했습니다. 1. 목표 미국 환율을 가져오려고 함 네이버증권 - 시장지표 - 가져올 대상에서 마우스 우클릭 - 검사 오른쪽 마우스 - copy - copy selector > [기능 정리] 웹페이지 열기 정보 가져오기 (참고: select와의 [차이] (http
Data Scraping
본 내용은 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술 강의를 들으며 실습하는 과정을 기록했습니다. 1. 요약 여러 지역의 RSS에서 RSS 노란색 밑줄 정보를 가져올 것 city, tmEf, wf 2. 실습 > 간단 vim 복

[파이썬실습] BeautifulSoup 이용한 시카고 샌드위치 맛집 데이터 가져오기
다음주 수업이 크롤링이라서 미리 예습을 해보았다. 책의 예제를 따라하다보면 금세 나오는 결과물에 짜릿할 수는 있지만, 절대로 내 실력으로 이어지지는 않는다. Colab으로 실습해본 것에 만족하지 않고 흐름을 복기하면서 검색을 통해 모르는 개념을 하나하나 채워넣으려고 한다. (링크)Colab으로 실습한 파일 00.목표 BeautifulSoup라이브러리를 이용하여 시카고 샌드위치 탑 50개의 데이터를 긁어오고, pandas를 통해 데이터를 정제해본다. 01.웹페이지에 접근하기 거창한 웹스크래핑은 아니지만, 인터넷에서 웹 페이지의 내용을 가져오려면 기본적으로 HTML문서를 가져올 수 있는 requests.get()와 HTML 문서를 탐색해서 원하는 부분만 쉽게

BeautifulSoup을 통한 웹크롤링 중 오류 해결방법 : HTTP Error 403: Forbidden
오류 오류 코드 BeautifulSoup으로 웹사이트를 긁어오려는데 계속 len이 0으로 떴다. 오류 : HTTP Error 403 : Forbidden 오류 원인 error 403은 서버가 연결을 거부해서 생긴 오류이다. > This is probably because of mod_security or some similar server security feature which blocks known spider/bot user agents (urllib uses something like python url

[제로베이스 데이터 취업스쿨] 23.07.24 스터디 노트_EDA 학습과제2
셀프 주유소는 더 저렴할까? 과정. 위 페이지에 접근 selenium을 통해 지역란에 서울 클릭(고정) 시/군/구 카테고리 하나씩 돌면서 주유소 정보 크롤링 시각화하여 분석 이번 미니프로젝트에서는 크롤링을 어떻게 하는지에 중점을 두었다. 생각해보기 하나하나의 단계를 정해서 코딩 get_arrtribute('') 를 사용 CSS_selector의 안의 정보들 찾아갈 때 ' '로 한의 요소들 찾아가기 셀프 여부에서 try, except문 사용 dataframe으로 만들기 위한 형태로 원하는 데이터를 하나씩 가져오기 결론 셀프 주유소 가격이 일반주유소 가격보다 월등히 저렴하다. 휘발유 가격은 종로구, 중구, 용산구, 강남구가 비싸다.

[제로베이스 데이터 취업스쿨] 23.07.20 스터디 노트_EDA 학습과제1
이디야는 스타벅스 주변에 있을 까? 1. 과정 스타벅스 서울시 매장의 정보들을 가져온다. selenium을 사용해서 "지역 -> 서울 -> 전체" 을 클릭 beautifulsoup을 통해 서울시 전체 스타벅스 매장 정보 가져오기 이디야 서울시 매장의 정보들 가져오기 selenium을 이용해 검색창에 "서울 XX" 식으로 위치를 넣어서 돋보기 클릭 beautifulsoup을 통해 서울시 전체 이디야 매장 정보 가져오기 가져온 정보들로 시각화 각 구 별로 매장 수 차이 barplot사용해서 표현 barplot에서 dodge=False 사용하면 겹쳐서 표현 가능 지도에 각 구별로 json폴더 이용해서 경계선 그어주기 스타벅스, 이디야 각각 circle로 지도에 표시 2. 결론 구 별 매장 수 차이를 봤을 때 스타벅스 매장이 주요 도심지에서는 월등히 많다. 이디야 매장은 서울시 전체에 골고루 퍼져있다. 현재 가져
[BeautifulSoup]네이버 증권 인기검색 종목, 해외 증시 크롤링 코드
안녕하세요! 오늘은 네이버 증권 인기검색 종목, 해외 증시 크롤링 코드를 배포하려고 합니다. > 1. 네이버 증권 인기종목 크롤링 > 2. 네이버 증권 해외증시 크롤링
[BeautifulSoup]뉴스 이슈 리스트 가져오기, 링크 가져오기 코드
안녕하세요! 오늘은 BeautifulSoup을 활용한 뉴스 이슈 리스트 가져오기, 링크 가져오기 코드를 배포합니다. > 1. 뉴스 이슈 가져오기 크롤링 코드 > 2. 뉴스 링크 가져오기 크롤링 코드 감사합니다!
[BeautifulSoup] 다음 뉴스, 네이버 뉴스 기사 제목 크롤링 코드
안녕하세요! 오늘은 다음 뉴스기사와 네이버뉴스 기사 크롤링 코드를 배포합니다. > 1. 다음 뉴스 제목 크롤링 > 2. 네이버 뉴스 제목 크롤링

[BeautifulSoup] 크롤링 패턴 코드 연습하기
안녕하세요! 오늘은 beautifulsoup을 활용한 크롤링 패턴 코드를 연습하려고 합니다. > 1. 라이브러리 임포트 request: 웹페이지 가져오기 bs4(BeautifulSoup):웹페이지 분석 라이브러리 > 2. 웹페이지 가져오기 URL 요청을 하고, HTML을 받는다. requests.get() 함수로 요청한다. res.status_code가 200이면 성공이다. > 3. 웹페이지 파싱하기 파싱이란 문자열의 의미를 분석하는 것이다 soup = BeautifulSoup(HTML내용, 파서종류) soup에는 구조화된 데이터가 들어간다 > **4.

[BeautifulSoup] 크롤링 환경 설정, 태그, 글자 추출
안녕하세요! 오늘은 크롤링 기초에 대해 정리하겠습니다. > 1. BeautifulSoup 환경 구성하기 먼저 beautifulSoup4을 설치합니다. 이후 bs4라는 패키지로부터 BeautifulSoup라는 모듈을 임포트합니다. html을 가정했을때 아래와 같이 지정해줍니다. > 2. 태그 선택 2-1. 태그 이름이 tag1인 html요소를 리스트 형태로 모두 반환한다. soup.select('tag1') 2-2. 태그 이름이 tag1인html요소중 첫번째 요소만 반환한다. 
시카고 샌드위치 분석 1에 이어서 시각화 작업을 진행하겠다. 🚩 시각화 🔎 데이터 불러오기 여기서 주소 컬럼을 보면 Multiple location 이라는 값이 들어있다. 이 원인은 각 샌드위치 하위 페이지에 가게가 여러 곳 인경우 실제주소가 아니라 Multiple location 이라 적혀있기 때문이다. 지도 시각화에 구글맵스를 활용할텐데 Multiple location인 경우는 조건문으로 nan 값을 채워넣기로 하자. 🔎 Googlemaps로 위도, 경도 추출 ![]
[제로베이스] CH4. EDA - 시카고 샌드위치 맛집 분석 1 (크롤링)
🚩 프로젝트 개요 및 목적 > 프로젝트 개요 제로베이스에서 진행한 프로젝트로 시카고 매거진에 샌드위치 맛집 50개를 정리해놓은 사이트에서 데이터를 추출하는게 목표이다. 또한, 미국 지도에 시각화 작업을 진행한다. url = https://www.chicagomag.com/chicago-magazine/november-2012/best-sandwiches-chicago/ 프로젝트 목표 총 50개의 샌드위치 페이지에서 각 가게의 정보를 가져온다 가게이름 대표메뉴 대표메뉴의 가격 가게주소 🚩 크롬 개발자 도구 - 태그 추출 🔎 메인페이지 태그 정보 사이트에 들어가서 스크롤하면 50개의 샌드위치가 순서대로 있다. 메인페이지에서 필요한 태그 정보