탐색적 데이터 분석
import pygwalker as pyg주피터 노트북에서 지원하는 매직 커맨드로 셀 가장 상단에 작성해야함.
CPU time: CPU가 코드를 실행하는데 걸리는 시간
Wall clock time: 실제 코드 실행 시간
- %time 뒤에 나오는 한줄 커맨드 소요시간
- %timeit 뒤에 나오는 한줄 커맨드 반복수행후 (iteration) 평균 소요시간
- %%time 뒤에 나오는 셀 전체 수행 후 소요시간
- %%timeit 뒤에 나오는 셀 전체 수행 후 평균 소요시간
%%time sum=0 for x in range(10000000) : sum=sum+x print("1부터 1000만까지 합 :",sum)
df.isna().sum() df.isnull().sum() # 동일한 기능
# 두개는 동일한 실행 결과 df[['Category','Selling Price']] df.iloc[:,[4,7]] # 전체 행, 열은 4번째 7번째 열 선택
# 중복 제거하고 고유값만 리스트 df2.groupby('Location')['Age'].unique() # 중복 제거하고 고유값만 계산하기 df2.groupby('Location')['Age'].nunique()
# 조건에 만족하는 행은 정상출력 ,아닌 행은 NaN 으로 반환 df2.where(df2['Age']>50)
# 조건에 부합하는 데이터만 가져오고 싶을 때 mask = ((df2['Age']>50) & (df2['Gender']=='Male')) # 마스크 매서드 df2[mask]
df2.groupby('Location')['Age'].count().sort_values(ascending=False)
ex) df2.groupby('Gender')['Customer ID'].count() df2.groupby(['Gender','Location'])['Customer ID'].count()