1. EDA(Exploratory Data Analysis)
- 탐색적 데이터 분석
- 데이터 분석 전, 그래프나 통계적인 방법으로 쟈료들을 직관적으로 바라보는 과정.
EDA를 하기 위한 데이터 수집 및 정제 과정
1. 데이터 수집
2. 데이터 전처리
3. 순수 데이터
4. EDA
1-1 EDA의 목적
- 데이터를 분석하는 분석자의 가설을 정형화하고 세분화하는 것을 돕기 위함
1-2 EDA의 핵심 목표
- 관측된 현상의 원인에 대한 가설 제시
- 통계분석의 기초가 될 가정을 평가
- 적절한 통계 도구 및 기법 선택을 위한 가이드
- 추가 데이터 수집을 위한 기반 제공
1-3 EDA 중요성
- 데이터를 분석 & 준비하는 데 80% 시간을 보내며, 나머지 20%는 분석 데이터에 대한 불평을 하는데 사용된다.
- EDA는 데이터를 분석하여 결과를 도출하는 전체 과정에서 대부분을 차지한다.
2. 웹 크롤링
- 웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어
- 원하는 서비스에서 원하는 정보를 편하게 얻어올 수 있음
- 언어를 막론하고 구현할 수 있지만, 주로 Python을 이용함
① 웹크롤러 : 웹상의 존재하는 데이터를 자동적으로 탐색할 수 있도록 특별한 시스템을 구축한 것
② 웹크롤링 : 그러한 웹크롤러를 통해 실제로 탐색행위를 실천하는 것
2-1. 크롤링 작용 원리
대략적으로 아래의 단계를 통해서 진행됨
① 대상 선정 → ② 데이터 로드 → ③ 데이터 분석 → ④ 데이터 수집
2-2. 크롤링 툴, 라이브러리 등 관련 소프트웨어
파이썬(Python)은 크롤링의 선두 주자로서, 컴퓨터 프로그래밍이 익숙하지 않은 비전공자들이 쓰기 쉽도록 라이브러리들이 발달하면서 급격히 발전하고 있음 (라이브러리를 통해 편리하게 크롤링 기능을 구현할 수 있음)
-
대표적인 파이썬 라이브러리의 예로 requests(페이지를 가져오기 위한 라이브러리), beautifulsoup(가져온 웹페이지를 기반으로 사용자가 원하는 데이터를 추출할 수 있도록 도와주는 라이브러리)
-
그외에도 브라우저를 이용한 selenium이라는 라이브러리가 인기를 끌고있음
-
webdriver와 headless 옵션을 함께 이용해서 웹을 자동화 시킬수도 있음
2-3 웹크롤링 사용 예
- 특정 페이지의 인기순위 가져오기
- 네이버 블로그 검색 결과 가져오기 등
감사합니다. 이런 정보를 나눠주셔서 좋아요.