1 웹 크롤링(Crawling) 컴퓨터 소프트웨어로 각종 웹 사이트에서 원하는 정보를 추출. 웹 스크래핑(Web scraping)이라고도 합. 크롤러: 인터넷 웹 페이지 방문해서 자료 수집하는 프로그램. 필요한 지식: 웹 개념, HTML CSS JavaScript 구조 및 태그, 파이썬 기초 도구: requests, BeautifulSoup, seleniu...
1 HTML 기초 개념 HyperText Markup Language: 웹 페이지 모습 표현하기 위한 마크업 언어. 마크업 언어: 태그를 사용해 문서나 데이터 구조를 표현. 즉, HTML 페이지도 태그와 실제 데이터로 구성되어 있는 문서. HTML은 모든 내용을 태그를 사용해서 표현. 콘텐츠 구조, 문단, 제목, 표, 이미지, 동영상 등 모든 구성 요소를 ...
1 requests 모듈 HTTP 요청을 보내는데 사용되는 모듈 HTTP: HyperText Transfer Protocol. 인터넷 상에서 데이터 주고 받는 데 사용되는 프로토콜. GET, POST, PUT, DELETE 의 메서드가 있지만, get과 post만 주로 사용. https://3.python-requests.org/ 2 메서드: get, p...

1 크롬 개발자 도구로 웹 구조 파악 크롬 개발자 도구는 웹 페이지 구조 분석하기 위한 툴. HTML뿐 아니라, 자바스크립트, CSS로 구성된 웹 페이지 구조 쉽게 파악 가능. 특히 크롤링 시 특정 태그나 CSS 선택자 쉽게 찾을 수 있어 유용. 우측 상단 - 도구 더 보기 - 개발자 도구 혹은 F12로 연다 여기서 상단 창은 HTML 하단 창은 CSS...
1 BeatifulSoup로 HTML 소스 파싱하기(데이터로 변환하기) requests로 들고온 HTML 소스를 파이썬 코드로 접근할 수 있는 형태로 파싱한다. BeautifulSoup: 복잡하게 작성된 HTML 문서를 구조화된 데이터 형태로 바꾸는 패키지. 파싱(Parsing): 주어진 데이터(파일, 문자열 등)을 분석하여 그 구조를 이해하고, 필요한 정...

1 Selenium 개념과 기본 설정 1-1 설정 전 알고 있을 개념 Selnium: 브라우저 자동 제어해서, 웹 애플리케이션 테스팅 자동화하는 데 쓰는 프레임워크 사용하는 이유: BeautifulSoup는 로그인이 필요하거나, 버튼 등을 클릭한 뒤 나오는 페이지 정보 가져오기 어렵다. 그런 환경에서 원격 조작해서, 자동으로 url 열고, 클릭, ...

1 2 3 샌드위치 맛집 좌표 구글맵에 찍기 3-1 인터넷의 top50 샌드위치 DF로 만들기 3-2 다수의 개별 페이지 접근해서 원하는 정보 들고오기 모듈 호출 부분에서 urllib의 request는 requests와 다른 모듈. 전자는 파이썬 표준이고, 후자

0 기본 세팅 - googlemaps, folium 모듈 2개 설치 0-1 googlemaps Python에서 GoogleMapsAPI를 사용하는 클라이언트 라이브러리. 구글맵 키 만들기 https://velog.io/@sukqbe/API-%EA%B5%AC%EA%B8
0-1 googlemaps Python에서 GoogleMapsAPI를 사용하는 클라이언트 라이브러리. 구글맵 키 만들기 https://velog.io/@sukqbe/API-%EA%B5%AC%EA%B8%80-%EC%A7%80%EB%8F%84Google-Map-%EC%[…]8%EA%B8%B0-API-Key-%EB%B0%9C%EA%B8%89%EB%B0%9B%EA...

3 샌드위치 맛집 좌표 구글맵에 찍기 3-1 인터넷의 top50 샌드위치 DF로 만들기 Request로 Request 객체 만들고(이때 user 설정해서 우회) -> urlopen으로 HTTP respnse객체로 -> BeautifulSoup 객체로 파싱 3-2 다수의 개별 페이지 접근해서 원하는 정보 들고오기 모듈 호출 부분에서 urllib의 req...

1 Selenium으로 파일 들고오기 selenium 이용시 기본 설정들 + 경고문 무시 및 By 모듈 호출 time.sleep을 거는 이유는 페이지가 로드되는 시간이 필요해서, 중간중간에 스탑. tqdm은 진행 상황 표시하는 바. 기존에 만들어놓은 구 이름의 리스트를 순회하면서, 그걸 입력(send_key) => 구가 바뀐다 그 상태에서 엑셀파일 클릭...

0 오늘의 목표는 인스타에서 제주도 맛집을 크롤링 관련 정보를 카카오 API에서 들고 온 지도 위에 시각화 1 인스타 크롤링 1-1 세팅하고, 인스타 로그인까지 이건 그냥 selenium 쓸 때 그냥 매번 붙여서 쓰는 설정 인스타로 이동하고, time.sleep(3)은 로그인 될때까지 기다리기 : Webdriver가 요소 찾을 때까지 최대 지정 시간까...