Professional Machine Learning Engineer Sample Questions
본 문제들은 Google GCP Machine Learning Engineer 자격증 준비를 위한 예제문제입니다.
B. Integrated Gradients를 사용하여 이미지 예측을 위한 feature attribution을 효율적으로 계산
본 문제는 image classifier의 성능을 평가할 수 있는 보기를 고르는 문제입니다. Integrated Gradients를 이용하면 이미지 입력의 어떤 pixel값들이 출력을 결정하는데 크게 기여하는지 알 수 있습니다. 입력 이미지의 pixel식별은 이미지 분류로 이어지기 때문에 B가 정답입니다. (GCP에서 사용가능)
[refrenece : http://isukorea.com/blog/home/waylight3/281]
A → K-folde cross validation은 모델의 예측에 대한 설명력이 없습니다.
C → PCA는 높은 차원의 데이터셋의 차원을 축소 하지만 시나리오에 추가적인 이점이 없습니다.
D → Clustering은 분류 모델이 예측한 이유에 대한 인사이트가 없습니다.
D. 정규화 없이 모델을 훈련시키고 loss가 0에 가까워지는지 확인합니다.
parameter가 충분하여 설명력이 있다면 loss가 감소해야 합니다.
C → 단순히 선형 모델보다 결과가 좋다고 해서 비선형 데이터 표현을 학습하기에 충분한 parameter가 있다고 보장할 수 없습니다.
D. Central Storage Strategy; Custom tier with a single master node and four v100 GPUs.
D → [Distributed training with Tensorflow]
본 문제는 분산처리가 가능한 작업 구성에 대한 문제입니다. 분산처리가 되는 Strategy가 D밖에 없습니다.
central_storage_strategy = tf.distribute.experimental.CentralStorageStrategy()
A,B,C → 모두 단일 장치 구성입니다.
A. 테스트 환경에서 모델 배포 → 모델 유효성 검사 → 새 AI 플랫폼 모델 버전 만들기
모델이 테스트 환경에서 배포된 수 유효성 검사를 할 수 있고, 프로덕션에 배포되기 전 릴리스 버전이 설정되기 때문에 정확합니다.
B → 테스트 환경에 배포 전에 유효성 검사를 할 수 없습니다.
C → 모델이 검증되기 전에 릴리스 후보에 대한 모델 버전이 설정되기 때문에 X
D → 테스트 환경에 배포전에 유효성 검사 X, 모델 검증 전 릴리스 버전 설정 X
A. AUC값을 계산한다.
AUC는 선택된 임계 분류임계 값에 관계없이 모델의 예측 품질을 측정합니다.
B → 10,000개 중에 100개만 결함입니다. 단순히 TP를 계산하는 것은 의미가 없습니다.
C → 단순히 결함이 있는 이미지의 비율을 계산하는 것은 모델의 정확성을 판단하는데 관련이 없습니다.
D → Cosine Similarity는 거리기반 모델(ex.KNN)에서 유용합니다. image classification 모델의 성능을 확인하는데 적절하지 않습니다.
D. 데이터 준비→DataPrep을 사용한 롤릴 평균 기능 엔지니어링
모델학습 → BQML 및 AUTO_CLASS_WEIGHTS가 TRUE로 설정된 로지스틱 회귀
DataPrep : rolling average == moving average == 이동평균
[이동평균 예시 출처 : https://www.investopedia.com/terms/s/sma.asp]
데이터의 잡음과 변동을 고려하였을 때, min/max 보다 이동평균이 추세를 나타내기에 적절합니다.
Model training : BQML을 사용하면 BigQuery에서 표준 SQL 쿼리를 사용하여 머신러닝 모델을 만들고 실행할 수 있습니다.
'auto_class_weights=TRUE' 옵션은 학습 데이터에서 클래스 라벨의 균형을 맞춥니다. 기본적으로 학습 데이터는 가중치가 더해지지 않습니다. 학습 데이터 라벨의 균형이 맞지 않는 경우 모델은 가장 인기 있는 라벨 클래스에 더 가중치를 둬서 예측하도록 학습할 수 있습니다.
센서 데이터의 이동 평균을 사용하고 BQML , AUTO_CLASS_WEIGHTS의 매개 변수를 사용하여 가중치의 균형을 맞추기 때문에 정확합니다.
Dataprep by Trifacta documentation
A,B → DataPrep이 적절하지 않습니다.
C → 모델 학습이 불균형 데이터 세트에 대한 클래스 레이블의 균형을 맞추지 않기 때문에 C는 올바르지 않습니다.
C. Pub / Sub, Cloud Function, Video Intelligence API, Cloud Logging
Video Intelligence API는 부적절한 구성 요소를 찾을 수 있고 기타 구성 요소는 실시간 처리 및 알림 요구 사항을 충족합니다.
A → 경고 및 알림 기능이 없습니다.
B → 동영상에 적절하지 않습니다.
D → AutoML Video Intelligence는 맞춤 설정의 경우에만 사용해야합니다.
A. BigQuery에 데이터를 로드하고 BigQueryML에서 ARIMA모델 유형을 사용합니다.
BigQuery ML은 빠르고 신속한 실험을 위해 설계되었으며 통합 쿼리를 사용하여 Cloud Storage에서 직접 데이터를 읽을 수 있기 때문에 A가 정확합니다. ARIMA는 주식예측처럼 시계열 데이터를 예측할 때 사용되는 모델입니다.
B → AutoML Tables은 빠른 반복 및 빠른 실험에 적합하지 않습니다. 데이터 처리나 하이퍼파라미터튜닝을 하지 않더라도 모델을 만드는 데에 최소 1시간이 소요됩니다.
C → custom TF 모델을 짜려면 데이터 처리와 하이퍼파라미터 튜닝이 필요하기 때문에 적절하지 않습니다.
D → AI Platform을 사용하려면 CSV 구조로 데이터를 사전 처리해야하는데, 시간이 오래 걸릴 수 있으므로 빠른 반복에 적합하지 않습니다.
A. Google Cloud의 데이터 라벨링 서비스를 사용하여 데이터에 라벨을 지정합니다. AutoML Object Detection을 사용하여 모델을 학습시키고 배포합니다.
AI Platform Data Labeling Service documentation
Could AutoML Vision Object Detection documentation
B → Vision API는 소규모 스타트업 회사 로고에 작동되지 않을 수 있습니다.
C→ 수동으로 라벨링하는 작업은 시간이 오래걸립니다.
D→ object detection으로 라벨링하는 것은 정확하지 않습니다. 또한 real time object detection은 이미지보다 비디오에서 객체를 감지하도록 설계되었습니다.
정답 : C. 라이브 에이전트가 더 복잡한 요청을 처리할 수 있도록 요청의 70%를 처리하는 10개의 인텐트를 자동화합니다.
인텐트 : 어플리케이션 구성요소 간에 작업 수행을 위한 정보를 전달하는 역할
Diagoflow : Google의 챗봇 플랫폼