
러닝 스파크 요약 정리

Apache spark

데이터 엔지니어링
데이터 품질Data를 대시보드 등을 구성하고 의사결정에 사용하는데 데이터가 잘못됐다면?Data Quality의 이슈로 인해 ML/DL 모델 학습에 문제가 생긴다면?이런 이슈를 Data Quality Management를 통해 방지하고자 함정확성 (Accuracy)데이터
Data Quality 관련 도구에는 다양한 것들이 있다. 그 중에서도, 가장 큰 커뮤니티를 가진 도구인 Great Expectations에 대해 알아보겠다. 공식 깃허브, 대략 10.9k star면 훌륭한 것 같다. gx-core와 gx cloud가 존재한다. g
저번에 Great Expectations의 기초적인 요소들에 대해 학습을 했다.해당 내용을 실제 코드로 옮겨보고자 한다.환경은 모두가 다를 수 있고, 이렇게 되는구나를 느끼면 될 것 같다.필자는 Jupyter Notebook, pyspark, great expectat