pymongo 한글깨짐
Amazon EMR stdout 한글 깨짐
Amazon EMR stdout 웹 뷰에서 utf-8 인코딩이 되어있지 않아 한글이 깨지는 현상이 발생함. 데이터 웨어하우스 Redshift로 옮겼을 때 올바르게 인코딩되어 로드됨.
Amazon EMR로 pymongo와 pyspark를 구동하여 EC2의 Airflow로 스케쥴링 할 시 Amazon EMR stdout에서 한글이 깨져서 보이는 현상이 발생함.
Airflow DAG -> mongodb -> pymongo+pyspark -> ETL -> Load S3 -> Copy Redshift

어디서 한글이 깨지는 지 확인
1. mongo -> pymongo
2. pymongo -> pysaprk
특정 케이스에서는 인코딩이 정상적으로 동작하는 것을 발견함.