Sprint Challenge 1

제이브로·2021년 11월 30일

AI부트캠프 Data Preprocess EDA Sprint Challenge 코드스테이츠

AI부트캠프

목록 보기

7/32

Sprint challenge

Data Preprocess & EDA

결측치 확인

pd.isnull(df1).sum()

isna = isnull로 같지만, isna를 사용하는 것이 더 좋다

Scatter plot

df.plot.scatter(x = 'time', y = 'total')

groupby

df.groupby('geo')['PPP'].agg(**{'mean_PPP':'mean'}).reset_index()

agg() : 사용자에게 다중집계작업(multiple aggregation operation)을 간결하게 나타낼 수 있게 한다.

함수, 문자열로된 함수 이름, 함수 이름의 리스트, 함수이름 가지는 딕셔너리 등 가능하다.

apply 함수와 비슷하나 apply는 하나의 함수만 가능

*arg, **kwargs

Q . *arg란?
A . args는 arguments의 줄임말이다. 앞에 *(asterisk)가 있는 것을 주의깊게 보면 된다. 뒤에 parameter 이름을 임의대로 정할 수 있다. *args는 여러개의 인자를 함수에 전달할 때 쓰인다.

Q . **kwargs란?
A . kwargs는 keyword arguments의 줄임말이다. 앞에 *(asterisk)가 두개 붙어 있는 점이 *arg와의 차이점이다. **kwargs는 (키워드 = 특정 값) 형태로 함수를 호출할 수 있다.

merge

pd.merge(df1, df2, how='left', on=['geo','time'])

merge

nlargest

df.nlargest(n, columns, keep='first')

columns에 [A, B] 이면 A > B 우선순위 ex) A값에서 중복된 값이 있으면 그 다음 B에서 큰 값을 가져온다.

keep='first'은 제일 첫번째만 표시

keep='all'은 중복 전부 표시