분석을 하거나 모델을 만들기 전에 데이터를 사용하기 쉽게 변형하거나 맵핑하는 과정
- 데이터 전처리, 클리닝와 혼용, 포괄적으로 봤을 때 EDA로 보는 사람도 있음(문맥에 따라 사용)
from IPython.display import display
import pandas as pd
def preview():
for filename in glob('*.csv'):
df = pd.read_csv(filename)
print(filename, df.shape)
display(df.head())
print('\n')
: 같은 값이 하나도 없으면 True로 반환하나 1개라도 값은 값이면 False 반환
>>>mySet = set("ever")
>>>mySet2 = set("tomo")
>>>print(mySet.isdisjoint(mySet2))
--------------------------------------
True
len(df.feature1.unique()) == len(df)
df['feature 이름'].mode()
df['Item ID'].value_counts().rename_axis('unique_values').reset_index(name='counts')
Leature Note에
끝에 3) 바나나 구매 횟수와 4) 최근 몇일 전에 바나나를 구입했는지? 에 대한 코드 이해할 것