해외 주식 분석 프로젝트-2

L·2022년 7월 22일
1
post-thumbnail
post-custom-banner

안녕하세요.
오랜만에 글을 쓰게 되네요.

요새 바쁜 일들이 너무 겹쳐서 정신이 없었습니당...😂😂

이번 글부터 본격적으로 프로젝트를 진행해보려고 합니다.

이렇게 글을 쓰면서 프로젝트를 진행한 적은 처음이라,
글솜씨가 서툴러도 양해 부탁드리겠습니다!🙏


목표🏆

👉 해외주식 데이터 수집이 가능한 웹 선정
👉 웹으로부터 크롤링할 데이터 선정
👉 크롤링 시작, 끝, 텀 선정
👉 크롤링 데이터 적재 프레임워크 선정


1. 크롤링 웹 선정🥇

우선 요즘 저작권법이 중요해진만큼 크롤링할 웹이 크롤링이 가능한지 여부부터 확인해야한다.

이를 위해, 크롤링할 웹 주소 뒤에 '/robots.txt' 를 입력하여 'Disallow' 부분을 확인하면 된다.

확인 결과, 'finance.yahoo.com' 가 특정 디렉터리에 한해서는 Disallow가 명시되어있었지만, 그 외에는 명시되어있지 않아, 해당 웹을 선정하였다.

이미 이전 프로젝트에서도 해당 웹에서 크롤링한 적이 있으므로, 이번 프로젝트에서 사용하면 유용할 것으로 예상된다.


2. 크롤링 데이터 및 시각 선정🥈

크롤링할 데이터는 너무 방대하다. 우선 실시간으로 주가를 크롤링해야하는건 너무나도 당연한 일이다.

이외에 굳이 실시간이 아니더라고 하루에 한 번씩 크롤링해도 되는 데이터(배치데이터)가 존재한다.

배치 데이터 항목으로는 PER, EPS, PEG, Open, Close, Market Capital, Volume 등이다. 이전 프로젝트에서 크롤링한 데이터 항목에 몇 가지 추가할 거다

또한, 이 프로젝트는 순수 저자 혼자만을 위한 것이므로, 모든 종목에 대한 데이터를 크롤링하는 것이 아니라, 관심있는 종목만을 크롤링할 것이다.

아무래도 해외주식이기 때문에, 크롤링 시각은 미장의 서머타임을 고려해 설정할 것으로 사료된다.

3. 적재 프레임워크 선정🥉

이번 단계만큼은 이 프로젝트에서 새롭게 시작하는 단계이다😁

기존 프로젝트에서는 적재하기 위해 단순 RDB인 MySQL을 사용했다. 그러나 지금은 굉장히 많은 데이터 베이스들이 출시되어있고 이 중, 시계열 데이터베이스(TSDB)를 사용하려고 한다.

저자는 TSDB 중, 제조와 금융에서 많이 쓰이는 InfluxDB를 사용하여 데이터를 적재하려고 한다. InfluxDB를 써야하는 이유는 저자가 작성한 InfluxDB 육하원칙에 기재되어 있다.

적재 시, 실시간 주가를 적재하는 테이블(measurement)과 배치성 데이터를 적재하는 테이블(measurement) 두 가지를 생성해야할 것이다.

Data Collect Process

profile
데이터 요리사
post-custom-banner

0개의 댓글