[Crawl] 크롤링 시간 단축시키기

AnHyunDong·2022년 6월 26일
0
post-custom-banner

개요

  • 실시간 크롤링하는데 걸리는 시간이 약 32초로 긴 시간인 것을 확인할 수 있음
  • EC2를 병렬처리하여 시간을 줄일 예정
  • 시간을 단축하기 위해서 Python -> Cpython or pypy로 돌릴 예정

Cpython, pypy

  • Cpython : 대부분의 파이썬의 경우 내부는 C언어로 구현
  • pypy : 2007년에 처음 발표된 Python의 언어 구현 중 하나로, C로 짜인 기존의 CPython과 달리 Python으로 Python을 만드는 프로젝트

  • 인터프린터 형식이 아닌 컴파일러 형식이라 더 빠르게 실행 > 즉, pypy가 Python보다 빠르게 실행됨
  • Python 코드와 호환성이 좋음

Install

# python 설치
sudo apt update
sudo apt install software-properties-common
sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt install python3.9

# pypy 설치
wget https://downloads.python.org/pypy/pypy3.9-v7.3.9-linux64.tar.bz2
tar zxvf pypy3.9-v7.3.9-linux64.tar.bz2 /opt
mv /opt/pypy3.9-v7.3.9-linux64.tar.bz2 /opt/pypy

실행

/opt/bin/pypy /code/crawl.py

결과

URL

실시간 뉴스

profile
사진은 남아 추억이 메모는 남아 스펙이 된다
post-custom-banner

0개의 댓글