Python EDA를 위한 기초

Nary Kim·2024년 5월 1일
0

Upstage AI lab 3기

목록 보기
7/17
post-thumbnail

python EDA를 하기 위해서는 numpy와 pandas 그리고 seaborn 세 라이브러리가 가장 많이 사용되므로 이것에 대한 사용법들을 배웠다.

전에 배웠던 내용들이여서 정리하면서 듣지 않고 좀 교양처럼 들었더니, 블로그 쓰기가 힘들어졌다..
내가 몰랐던 것 위주로 다시 정리해본다.

Numpy as np

  • np.array는 python의 array와는 다르다. 덧셈이 벡터의 덧셈처럼 된다. np는 matlab과 비슷하다는 얘기를 들은 적이 있는 데, 그런 것도 같다.
  • python의 리스트처럼 합쳐지는 걸 하고 싶다면, np.vstack 이나 np.hstack과 같은 것을 쓰면 된다.
  • 근데 곱셈은 각각 곱해진다. (벡터의 곱과는 다르다.)
  • dot product는 @를 사용.(v1 @ v2)
  • 선형대수관련한 계산에는 라이브러리가 따로 존재한다.(np.linalg)
  • shape을 다시 조립할 수 있는 reshape이 있어서 좋다.
  • np.argmin, np.argmax는 해당하는 값의 인덱스를 반환한다.
  • 우리가 직접 구현하는 것보다 Universal Function을 사용하는 것이 훨씨니 빠른 성능을 낸다. (괜히 깝치지 말고 우선 검색하자.)

Pandas as pd

  • DataFrame이 pandas의 꽃이지 않을까.
  • 나 근데 이건 전부터 열심히 해서 진짜 좀 잘 한다.
  • pd.pivot_table을 사용했는데, groupby도 연습해두자.

seaborn as sns

  • 모든 라이브러리가 그렇지만 seaborn도 잘 바뀌는 라이브러리라서 체크가 필요하다.
  • 안되면 설명서 찾아서 읽어본다.
  • 요소 중에 multiple='stack'은 값이 쌓이는 모습을 다른 색들을 사용하여 잘 보여준다.
  • 아래는 그래프의 이름이며 이름만 봐도 직관적으로 무엇을 나타내는지 드러난다.
  • Histplot
  • Displot
  • Barplot
  • Countplot
  • Boxplot
  • Violinplot
  • Lineplot
  • Pointplot
  • Scatterplot
  • Pairplot
  • Heatmap

이제 EDA 프로젝트에 들어가는데 나는 주식관련으로 선택했다.
다행히 팀을 잘 만나서 데이터만 잘 모은다면 좋은 인사이트를 얻을수 있을 것이라고 생각한다.
화이팅!

profile
나는 무엇이 될것인가!!

0개의 댓글

관련 채용 정보