glob 파일 로드 라이브러리
from glob import glob
glob("_______.___")
melt 열에 있는 데이터를 행의 데이터로 녹임
pd.melt(데이터, id_vars=['',''], var_name="", value_name="")
map 리스트 요소를 지정된 함수로 처리 -> 원본리스트를 변경하지 않고 새 리스트 생성
참고 : [https://dojang.io/mod/page/view.php?id=2286]
lambda 익명 함수
참고 : [https://wikidocs.net/64]
# x="123.456"
데이터.map(lambda x : int(x.split(".")[0]))
>> 123
데이터가 너무 많으면 표본을 샘플링해서 표본조사를 한다.
# 랜덤값을 고정
# np.random.default_rng(42) 이걸 더 권장
np.random.seed(42)
np.random.choice(데이터.unique(), 10000)
# random_state: 랜덤값을 고정
sample_no = 데이터.sample(10000, random_state=42)
# 데이터의 타입을 datetime으로 변경
pd.to_datetime(데이터)
# 컬럼 수 지정
pd.options.display.max_columns
# 데이터 병합
# how='left': 오른쪽에 결측치가 있어도 왼쪽 기준으로 합침.
데이터.merge(합칠 데이터, on=기준, how='left/right')
.set_index()
.to_dict()
# 1로 채워진 array 만들기
# np.ones(corr.shape)
# triu: 밑에 0, tril: 위에 0
상삼각행렬 = np.triu(np.ones_like(corr))
sns.heatmap(데이터, annot=글씨, fmt='.소수점몇번째까지f', cmap=색, vmin=최저 색의 기준 값, vmax=최고 색의 기준 값, mask=상삼각행렬)
# groupby 사용
df.groupby(["연령대",'성별'])['금액'].sum().unstack().plot.bar(figsize=(10,3))
# pivot_table 사용
df.pivot_table(index='연령대', columns='성별', values='금액', aggfunc='sum').plot.bar(figsize=(10,3))