사실 HDD
와 SSD
의 차이점에 대해 대략적으로 알고 있기는 했지만, 오늘 좀 더 실무적인 관점에서 그 차이를 이해해야 하는 이유에 대해 알게 된 것 같다.
영화 추천 사이트에 광고 도메인을 붙이기로 했다. 광고에 관련된 로그를 Google Analytics로 쌓고, 추출해서 사용할 예정이라 GA에 대해 알아봤다.
실제로 사용해 본 경험이 없어서 해봐야 알겠지만
GA에서 데이터 추출 -> Spark 또는 Pandas로 전처리 -> Redshift 적재 -> BI 툴을 활용한 대시보드 생성 정도의 파이프라인을 구축하게 될 것 같다.
데이터베이스 정합성
이란 데이터베이스 내의 데이터가 서로 모순 없이 일관성 있게 유지 되는 상태를 말한다. DB 정합성을 유지하는 데 Kafka를 사용할 수 있다는 강사님의 조언에 따라 DB 정합성을 관리할 계획이다.
1단계에서 시간 여유가 좀 있을 때 DB 정합성 관리 방법에 대해 공부를 해봐야할 것 같다.