크롤링(crawling)? 웹사이트 분석하여 원하는 정보를 추출하는 것. 개발자도구를 활용하여 반복적인 태그 구조를 파악하거나, css 선택자를 사용할 수 있는지 확인 하여 코드를 작성한다.
뷰티풀수프 한글 문서에서 어떻게 사용할수 있는지 자세한 정보를 얻을 수 있다.
설치 전 가상환경을 만들고 그 안에 pip를 통해 beautifulsoup4를 설치하겟따.
나는 콘다(미니)를 통해 가상환경을 만들도록 하겠다. 터미널에 아래 명령어를 입력하여 진행한다.
conda create -n <가상환경이름지정> python=<파이썬버전>
conda create -n test_crawling python=3.8
가상환경을 만들었다면, 환경을 활성화한다.
conda activate test_crawling
프로젝트를 진행할 폴더를 생성, 활성화 하자. 가상환경과는 다름으로 꼭 진행해야 한다. 터미널에 아래 명령어를 작성하자.
cd <프로젝트 경로로 이동>
mkdir <프로젝트명>
cd <프로젝트명>
을 통해 프로젝트를 진행할 경로로 이동 > 프로젝트 폴더생성 > 프로젝트폴더로 이동 하였다.
1~2번까지 진행했다면 터미널의 현재위치는
가상환경명, 프로젝트디렉토리경로/프로젝트폴더> _
에 위치해 있을 것이다.
위 경로에서 beautifulsoup4 설치를 진행한다.
pip install beautifulsoup4
pip 가 없다면 pip를 설치하도록 하자. mac의 경우 brew를 통해 설치한다.
웹사이트로 요청할때 필요한 라이브러리로 꼭 필요하니 함께 설치한다.
pip install requests