python EDA를 하기 위해서는 numpy와 pandas 그리고 seaborn 세 라이브러리가 가장 많이 사용되므로 이것에 대한 사용법들을 배웠다.
전에 배웠던 내용들이여서 정리하면서 듣지 않고 좀 교양처럼 들었더니, 블로그 쓰기가 힘들어졌다..
내가 몰랐던 것 위주로 다시 정리해본다.
Numpy as np
Pandas as pd
- DataFrame이 pandas의 꽃이지 않을까.
- 나 근데 이건 전부터 열심히 해서 진짜 좀 잘 한다.
- pd.pivot_table을 사용했는데, groupby도 연습해두자.
seaborn as sns
- 모든 라이브러리가 그렇지만 seaborn도 잘 바뀌는 라이브러리라서 체크가 필요하다.
- 안되면 설명서 찾아서 읽어본다.
- 요소 중에 multiple='stack'은 값이 쌓이는 모습을 다른 색들을 사용하여 잘 보여준다.
- 아래는 그래프의 이름이며 이름만 봐도 직관적으로 무엇을 나타내는지 드러난다.
- Histplot
- Displot
- Barplot
- Countplot
- Boxplot
- Violinplot
- Lineplot
- Pointplot
- Scatterplot
- Pairplot
- Heatmap
이제 EDA 프로젝트에 들어가는데 나는 주식관련으로 선택했다.
다행히 팀을 잘 만나서 데이터만 잘 모은다면 좋은 인사이트를 얻을수 있을 것이라고 생각한다.
화이팅!