GCP Professional Data Enginer 시험을 준비하면서 도움이 됬던 팁이나 후기를 정리하여 올립니다. coursera 의 자격증 준비 과정을 수강했고 해당 과정에는 실습도 다수 포함되어 있어서 서비스 이해에 큰 도움이 됬습니다. 하지만 해당 과정만 듣고서 시험 합격은 어렵다고 보고 추가로 덤프 사이트를 참고 했습니다. 덤프 사이트는 passnexam 이고 거의 모든 문제가 해당 덤프에서 나왔습니다.
승인된 네트워크나 SSL 구성 없이도 인스턴스에 안전한 액세스를 제공하는 Cloud SQL 커넥터.
로컬 환경에서 로컬 클라이언트를 실행하여 작동합니다. 애플리케이션은 데이터베이스에서 사용하는 표준 데이터베이스 프로토콜을 사용하여 Cloud SQL 인증 프록시와 통신합니다.
테이블이 자주 조인될 때 동일한 물리적 공간에 배치. 조인 성능을 향상.
• Millisecond latency, NoSQL. 빅쿼리보다 빠르다.
• Access is designed to optimize for a range of Row Key prefixes
• Access control
• Choosing between SSD and HDD
타임스탬프로 시작되는 row key, 그룹화되지 않게 하는 row key, 자주 업데이트되는 식별자
역방향 타임스탬프로 row key를 설정
영구 저장, 다른 서비스를 위한 스테이징 영역
• NoSQL document 데이터베이스
• ACID transactions
• 수요에 따라 손쉽게 확장 또는 축소, 유지보수 중단 시간 없음
• 완전 관리형, 서버리스
if data is time based or sequential, find partition and cluster option.
if data is not time based, always look for denomalize / nesting option.
GoogleSQL 쿼리를 사용하여 머신러닝 모델을 만들고 실행할 수 있습니다. 모델을 만들 때 TRANSFORM 절을 사용하면 모든 사전 처리를 지정할 수 있습니다.
분산 로그, 메트릭, 이벤트를 GCP의 Stackdriver에서 한 곳에 수집하여 모니터링에 대한 다양한 서비스를 제공. Cloud(GCP, AWS) 환경이 아닌 On-Prem 환경에서도 Stackdriver를 사용할 수 있다.
웹 기반의 데이터 시각화 도구. BigQuery 와 연동해서 사용가능
기본적으로 성능을 개선하고 쿼리 양을 줄이기 위해 데이터를 캐시합니다. 이로 인해 캐시된 데이터가 최신이 아니므로 시각화에 1시간 미만의 데이터가 표시되지 않을 수 있습니다. 이 문제를 해결하려면 보고서 설정을 편집하여 캐싱을 비활성화해야 합니다.
Apache Beam SDK를 활용해 배치와 스트리밍 데이터 프로세싱 파이프라인을 구현할 수 있도록 해주는 GCP의 서비스이다.서버와 인프라에 대한 고려 없이 서버리스로 데이터 파이프라인을 설계.
ETL, batch, streaming 파이프라인을 처리하기 위한 unified programming model. 다양한 랭귀지와 다양한 runner를 지원. Beam SDK를 통해 다양한 runner( Mapreduce, Spark, Flink 등)에서 데이터를 처리 가능. 매년 더 발전된 분산처리엔진이 나오고 있는데, 이 트랜드를 따라가면서 각자의 장단점에 따라 하나를 선택하기도 쉬운 일이 아니기에 Beam을 통해 원하는 랭귀지로 개발하고, 러너는 원하는 것으로 선택하자는 것.
Streaming Data 같은 데이터가 끊이지 않고 들어오기 때문에 이를 위해 시간을 기준으로 작업을 끊어서 처리 하는데 이를 Windowing이라고 합니다.
처리중인 데이터를 언제 다음 단계로 넘길지 결정하는 기준
실제 데이터가 시스템에 도착하는 시간을 예측
Managed Hadoop service
진행 중인 작업이 Cloud Dataproc 클러스터에서 삭제되기 전에 완료될 수 있도록 합니다.
If you are forecasting that is the values in the column that you are predicting is numeric
If you are classifying, that is buy or no buy, yes or no, you will be using logistics regression
use L1 regularization becuase we know the feature is a strong feature. L2 will evenly distribute weights
모바일 앱, 웹 애플리케이션, 기기, 봇 등에 설계하고 통합할 수 있는 자연어 이해 플랫폼.
Cloud Text-to-Speech를 사용하여 에이전트에서 음성 응답도 생성.
관리형 서비스에는 여전히 오버헤드가 존재. 서버리스 서비스는 관리형 서비스에 비해 오버헤드를 최소화.
users use roles to limit access to only Dataflow resources, not just the project
Dataflow는 no coding. 편리하지만 더 제한이 크다. Dataflow는 원하는 모든 데이터 소스를 활용 가능.
온프레미스 위치에서 데이터를 전송할 때는 gsutil을 사용. 다른 클라우드 스토리지 공급자로부터 데이터를 전송할 때 Storage Transfer Service를 사용. 그렇지 않으면 상황에 맞게 두 도구를 모두 고려.
또한 gsutil은 작은 전송 크기(최대 1TB)를 지원할 수 있지만 온프레미스 데이터용 Storage Transfer Service는 대규모 전송(최대 페타바이트 데이터, 수십억 개의 파일)용으로 설계되었습니다.
Partner Interconnect는 지원되는 서비스 제공업체를 통해 온프레미스 네트워크와 VPC 네트워크 간의 연결을 제공.
Cloud DLP : 텍스트 또는 이미지 에서 민감한 정보(전화번호, 신용카드, 이메일 등)가 있는 부분을 검사하고 수정하는 기능을 API형태로 제공
컴퓨터에게 정답(Label)이 무엇인지 알려주면서 컴퓨터를 학습을 하는 방법. 정확도가 높지만 시간이 오래 걸림.
정답을 알려주지 않고 비슷한 데이터를 군집화 하여 미래를 예측하는 학습 방법. 사용자가 직접 목표 값에 개입할 필요가 없어 속도가 빠르지만 정답이 정해져있지 않으므로 분류 기준과 군집을 예측할 수 없으며, 모델 성능을 평가하기 어렵다는 단점이 있습니다.
분류할 수 있는 데이터가 존재하는것도 아니고 데이터가 있다 해도 정답이 따로 정해져 있지도 않으며, 자신이 한 행동에 대해 보상(reward)을 받으며 학습하는 것을 말합니다.
https://reoim.tistory.com/entry/GCP-%EC%9E%90%EA%B2%A9%EC%A6%9D-%ED%9B%84%EA%B8%B0-Google-Cloud-Certified-Professional-Data-Engineer
https://woongjun-warehouse.tistory.com/97
https://blog.naver.com/PostView.naver?blogId=lbhhoya&logNo=222236221417
https://www.coursera.org/professional-certificates/gcp-data-engineering
https://www.coursera.org/specializations/gcp-data-machine-learning?
https://www.coursera.org/learn/preparing-cloud-professional-data-engineer-exam