공부를 하다 보니 뭘 내 직무로 삼아야 될 지 감이 안 온다. DA? 개발자? 보안?
하나를 진득하니 했어야 했는데, 최소한 누군가한테 기본기로 하루 정도는 설명할 수 있을 지식은 가지고 있어야 했다. 따라서 오늘부터 해보기로 했다. 뭘? 그냥 다!
알고리즘, 판다스, SQL, DE, DA. IT 소식과 CS도 끊임없이 채워넣겠다. 늦었다고는 생각하지 않지만 열심히 해보자.
모르는 개념, 용어가 나왔을 때 정리하고 그 이외는 넘어갈 예정입니다.
궁금한 점이 생기시면 댓글 남겨주세요. 보는 사람이 있을지는 모르겠지만서도?
일단 시작은 Datacamp로 빠르게 입문하려고 합니다. 그럼 바로 시작할께요.
Data Engineering For Beginners : https://de101.startdataengineering.com/
git version >= 2.37.1
Docker version >= 20.10.17 && Docker compose v2 version >= v2.10.2
https://github.com/josephmachado/data_engineering_for_beginners_code
fork 한 후에, 자기 레포지토리에서 클론
git clone clone_address.git
cd data_engineering_for_begineers_code
docker compose up -d --build
sleep 30

이런 에러를 확인할 수 있다. 
위 사진을 보면 amd64로 spark가 설치되었다..

amd64를 arm64로 변경해준다.
docker compose down
docker compose up -d --build
컨테이너 종료하고 다시 build
http://localhost:8888 들어가서 다시 data 만들어보면 ... 성공!!

Data Schema는 아래와 같다.
