train_data = pd.read_csv(train_csv_path)
train_data.head()

sns.countplot(x='race', data=train_data)

fig = plt.figure()
ax = fig.add_subplot(111)
sns.countplot(ax = ax,x='age_range',hue='gender', data= train_data)
ax.set_xticks([0,1,2])
ax.set_xticklabels(["30 Under", "30 Over 60 Under", "60 Over"])
plt.show()

import matplotlib.image as img
import matplotlib.pyplot as pp
fileName = file_path
ndarray = img.imread(fileName)
pp.imshow(ndarray)
pp.show()
EDA라는 것을 처음해봐서 엄청 헤맸던 것 같다. 처음에는 그냥 데이터 구조가 어떻게 되어 있고, Class Imbalance가 있다 정도로만 이해하고 바로 Project를 수행했다. 하지만, 같은 팀원이 데이터 시각화를 통해 EDA를 체계적으로 수행한 것을 보고 내 EDA는 EDA가 아니였다는 사실을 알게 되었다.
이후 Matplotlib이나 Seaborn을 활용하여 EDA를 수행해보려고 하였고, 이렇게 시각적으로 데이터 분포를 보니 아이디어가 하나 둘씩 생각나는 것을 알 수 있었다.
EDA는 Data를 이해하기 위해서 수행하는 것도 있지만, 내가 수행하는 프로젝트의 길잡이 역할을 수행해주는 중요한 과정이라는 것을 알게 되었다. 다음 프로젝트 때부터는 EDA 결과를 다른 사람에게 보여준다는 생각을 가지고 최대한 데이터 시각화를 적극적으로 수행해야겠다고 알게 된 프로젝트였다.