https://plotly.com/python/choropleth-maps/ 를 참고하여 작성영어라... 해석하기가 난감했다.Choropleth Map은 다양한 색의 폴리곤으로 이루어진 시각화이다.이 시각화는 수량의 변화를 공간적으로 나타내는데 효율적이다.pl
이번에 Kaggle의 Notebook중에 Covid_19 데이터로 XGBOOST를 사용해서 분석해보려고 한다. https://www.kaggle.com/anshuls235/covid19-explained-through-visualizations의 Notebook을 보면
비즈니스 활용 사례로 배우는 데이터 분석:R을 파이썬으로 재 코딩하면서 공부하려고 시작!!어떤 게임이 이번달에 매상이 줄어들었다. 그 문제에 대해서 원인을 밝혀서 대책을 세우는 것이 이번 문제이다.이번 데이터 분석에 필요한 데이터프레임은 총 세가지이다.dau : 하루에
비즈니스 활용 사례로 배우는 데이터 분석:R 참고 이번엔 어플을 떠나는 고객들의 유형을 파악하기 위한 탐색적 데이터 분석을 해보려고 한다. User들의 로그인 데이터와 어플에 가입할 때 제공한 User에 대한 정보 데이터를 가지고 어떤 User들이 어플을 떠나는지 파
ㅁㄴㅇ
이번엔 한국의 코로나 발발 케이스에 대해서 분석해보려고 한다.이번 분석에서 쓰일 데이터를 보면 한국에서 도시별, 성별, 나이별, 발생케이스를 알 수 있다. 이러한 데이터를 이용하여 한국에서의 발생 케이스가 어떤 형태를 띄는지 보려고 한다.우선 분석 데이터를 6주제별로
이번 데이터는 영토대비 인구수와 총 인구수를 가지고 데이터 Feature Engineering을 해보려고 한다.Feature Engineering이란?데이터에 대한 도메인 지식을 가지고 특징을 만들어내는 것이다. 특히 머신러닝을 사용할 때 이것을 이용한다. 데이터 컬럼
코로나 분석1 코로나 분석2 코로나 분석3이번엔 XGBoost에서 XGBRegression방법을 써서 df_train을 가지고 df_test의 코로나 확진자 및 사망자를 예측하려고 한다.데이터 전처리를 하기 위해 네가지 함수를 만드려고 한다.df_train데이터를 확인
어플의 매출을 증가하기 위해 광고를 이용하려고 한다. 크게 인터넷 광고와 미디어 광고가 있는데, 이 중에서 미디어 광고에 집중을 한다.이용하려는 미디어 광고의 종류는 TV광고와 잡지 광고가 있다. 이들을 이용하여 신규 유저수를 증가시키기 위해 광고비 비율을 정하려고 한
kaggle 노트북을 필사해보면서 공부하기로 마음먹고 바로 시작했다. Kaggle Korea의 이유한님께서 올려주신 Kaggle 커리큘럼을 보고 순차대로 진행해볼 예정이다.
이번 DACON CUP에 충동적으로 참여하게 되면서 필수불가결하게 시계열 분석을 공부하게 됬다. ADsP 시험 공부할 때 기본적인 이론은 학습되어 있으나, 사실 대부분이 다 잊어먹고 기억나는거라곤 ARIMA모델뿐... 이번에 한번 시계열 데이터 Kaggle을 필사하면서
세번째 타이타닉 분석이다. 이러다 진짜 타이타닉 마스터하겠소...이번엔 새로운 방식을 사용한 것만 설명하려고 한다.이번엔 이상치를 검색해서 이상치가 2개 이상인 행만 제거하고 분석하려고 한다. 일단 이 boxplot은 이상치 분석을 하기전에 한번 데이터 분포도를 보려고