참고로 대용량 데이터와 빅데이터는 다르다.
del
pandas.read_csv
에서 chunksize
라는 매개변수 활용 가능df_chunk = pd.read_csv(r'../input/data.csv', chunksize=1000000)
df = df[['col_1','col_2', 'col_3', 'col_4', 'col_5', 'col_6']]
pandas.read_excel
에서 usecols
라는 매개변수 활용 가능df = pd.read_excel(filename, usecols = "C:F", engine='openpyxl')
astype()
함수를 사용하는 것# Change the dtypes (int64 -> int32)
df[['col_1','col_2', 'col_3', 'col_4', 'col_5']]
= df[['col_1', 'col_2', 'col_3', 'col_4', 'col_5']].astype('int32')
# Change the dtypes (float64 -> float32)
df[['col_6', 'col_7', 'col_8', 'col_9', 'col_10']]
= df[['col_6', 'col_7', 'col_8', 'col_9', 'col_10']].astype('float32')
df = pd.read_csv(data_path)
data_types = check_dtypes(df)
df = df.astype(data_types)
columns = ps.read_csv(data_path, rows=0).columns
data_types = {col : check_dtypes(df[col]) for col in columns}
df = pd.read_csv(data_path, dtype = data_types)
df.select_dtypes(include=['object', 'int64'])
df.select_dtypes(exclude=['bool', 'int64'])
df = DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'f']})
print(df.isin([1, 3, 12, 'a']))
# A B
# 0 True True
# 1 False False
# 2 True False
print(df[df['A'].isin([1, 3, 12])])
# A B
# 0 1 a
# 2 3 f
temp = df.groupby(['user_id', 'day']).size()
df2 = pd.DataFrame(data=temp.keys().tolist(), columns=['user_id', 'day'])
df2['cnt'] = temp.values