[LabProject] 웹 크롤링 데이터 분석 프로젝트 [0]

Ducksocks·2024년 7월 26일

1. 선정한 프로젝트 주제: 대한민국 취업/실업률 요인에 대한 분석

2. 데이터 수집

  • 정부 및 공공기관 데이터베이스: 국가 통계청, 노동부 등의 공식 웹사이트에서는 실업률, 취업자 현황, 교육 수준 등과 관련된 통계를 제공
  • 학술 논문 및 보고서: Google Scholar, PubMed, ResearchGate 등에서 관련 주제의 논문을 찾아볼 수 있음.
  • 설문조사 데이터: 설문조사 플랫폼(예: SurveyMonkey, Google Forms)을 통해 직접 설문조사를 수행하거나, 기존의 설문조사 결과를 제공하는 기관(예: Gallup, Pew Research Center)에서 데이터를 얻을 수 있음.
  • 구직 사이트: Indeed, LinkedIn, Glassdoor 등에서 구직자의 프로필, 공고와 지원 현황 등의 데이터를 크롤링할 수 있음.

3. 데이터 크롤링 및 MongoDB 저장

  • 크롤링: 파이썬의 BeautifulSoup, Scrapy, Selenium 등의 라이브러리를 사용하여 웹 데이터를 크롤링할 수 있습니다.
  • CSV 파일 생성: 크롤링한 데이터를 pandas를 사용하여 DataFrame으로 변환한 후, to_csv 메서드를 사용하여 CSV 파일로 저장할 수 있습니다.
  • MongoDB에 저장: 파이썬의 pymongo 라이브러리를 사용하여 MongoDB에 데이터를 저장할 수 있습니다. 자바를 사용할 필요는 없으며, 파이썬만으로 충분히 효율적으로 처리할 수 있습니다.

4. 데이터 분석 라이브러리

  • pandas: 데이터 조작 및 분석을 위한 라이브러리
  • numpy: 수치 계산을 위한 라이브러리
  • scikit-learn: 머신러닝 모델 구축을 위한 라이브러리
  • tensorflow 또는 pytorch: 딥러닝 모델 구축을 위한 라이브러리
  • statsmodels: 통계 모델을 위한 라이브러리

5. 최종 데이터 저장

  • RDB에 저장: 데이터가 관계형 모델로 정규화되어 있고, 복잡한 쿼리를 자주 수행해야 한다면 RDB에 저장하는 것이 좋습니다. MySQL, PostgreSQL 등의 데이터베이스를 사용할 수 있습니다.
  • MongoDB에 저장: 비정형 데이터가 많거나, 데이터 모델이 유연해야 하는 경우 MongoDB에 저장할 수 있습니다. 기존 컬렉션이 아니라 새로운 컬렉션을 생성하여 저장할 수 있습니다.

6. 데이터 시각화 라이브러리

  • matplotlib: 기본적인 플롯팅 라이브러리
  • seaborn: 통계적 그래프를 쉽게 그릴 수 있는 라이브러리
  • plotly: 인터랙티브한 그래프를 만들 수 있는 라이브러리
  • bokeh: 대화형 시각화를 위한 라이브러리
  • dash: 웹 기반의 대시보드를 만들기 위한 라이브러리
profile
Studying Backend / Data Anal

0개의 댓글