GCP는 데이터 파이프라인을 만들 때에 여러가지 오픈소스들을 제공해준다. 나는 여기에 큰 장점이 있다고 생각하는게, 오픈소스들을 분산 처리할 생각으로 설치를 하게 되면 너무 너무 복잡하고 머리가 아픈데.. 자원관리 등등등 사실 이직한 회사에서 데이터 엔지니어 직무를 하게 됫고 파트너사 이기 때문에 공부를 시작했다. 하지만 분명히 여러가지 장점이 있는건 분명한 GCP이다.
여러가지 GCP 서비스들을 공부하면서 pipeline의 구성에 대해서 생각해보고 있다. 사실 gcp에는 여러가지 적재 방법들이 존재한다. Google Analystic은 Bigquery와 바로 연동이 가능하고, Streaming서비스인 Pub/Sub을 사용할 수도 있다고 한다. 이번에는 내가 공부한 Cloud Composer 와 GCS를 활용해서 외부 API를 받아서 적재 하는 것 까지 해볼것이다. 그리고 +로 scheduler를 설정해서 매일 한번이나, 몇 분씩 받거나 하는 로직도 한번 진행해 보려고한다.
facebook의 graphAPI를 사용해서 내가 만든 페이지의 데이터들을 가져올 생각이다.! 다른 외부 API도 나중에 한번 진행해볼 예정 그땐 composer + bigquery 로 진행해볼 생각이다.