Sprint challenge


Data Preprocess & EDA


결측치 확인

pd.isnull(df1).sum()

  • isna = isnull로 같지만, isna를 사용하는 것이 더 좋다

Scatter plot

df.plot.scatter(x = 'time', y = 'total')

groupby

df.groupby('geo')['PPP'].agg(**{'mean_PPP':'mean'}).reset_index()

  • agg() : 사용자에게 다중집계작업(multiple aggregation operation)을 간결하게 나타낼 수 있게 한다.
  • 함수, 문자열로된 함수 이름, 함수 이름의 리스트, 함수이름 가지는 딕셔너리 등 가능하다.
  • apply 함수와 비슷하나 apply는 하나의 함수만 가능

*arg, **kwargs

Q . *arg란?
A . argsarguments의 줄임말이다. 앞에 *(asterisk)가 있는 것을 주의깊게 보면 된다. 뒤에 parameter 이름을 임의대로 정할 수 있다. *args는 여러개의 인자를 함수에 전달할 때 쓰인다.

Q . **kwargs란?
A . kwargskeyword arguments의 줄임말이다. 앞에 *(asterisk)가 두개 붙어 있는 점이 *arg와의 차이점이다. **kwargs는 (키워드 = 특정 값) 형태로 함수를 호출할 수 있다.

merge

pd.merge(df1, df2, how='left', on=['geo','time'])

nlargest

df.nlargest(n, columns, keep='first')

  • columns에 [A, B] 이면 A > B 우선순위 ex) A값에서 중복된 값이 있으면 그 다음 B에서 큰 값을 가져온다.
  • keep='first'은 제일 첫번째만 표시
  • keep='all'은 중복 전부 표시

sort_values

df.sort_values(by='PPP' ,ascending=False)

  • 내림차순 : ascending = False
  • 오름차순 : ascending = True


👉 과정 한눈에 보기

profile
I believe I can fly

0개의 댓글