[멋쟁이 사자처럼 AIS7][0305:0307]

HI,HYEN·2022년 10월 13일

멋쟁이 사자처럼 AIS7

목록 보기

7/33

0305

glob 파일 로드 라이브러리

from glob import glob
glob("_______.___")

melt 열에 있는 데이터를 행의 데이터로 녹임

pd.melt(데이터, id_vars=['',''], var_name="", value_name="")

map 리스트 요소를 지정된 함수로 처리 -> 원본리스트를 변경하지 않고 새 리스트 생성
참고 : [https://dojang.io/mod/page/view.php?id=2286]
lambda 익명 함수
참고 : [https://wikidocs.net/64]

# x="123.456"

데이터.map(lambda x : int(x.split(".")[0]))

>> 123

0306

데이터가 너무 많으면 표본을 샘플링해서 표본조사를 한다.

numpy를 사용한 샘플링

# 랜덤값을 고정
# np.random.default_rng(42) 이걸 더 권장
np.random.seed(42)

np.random.choice(데이터.unique(), 10000)

pandas를 사용한 샘플링

# random_state: 랜덤값을 고정
sample_no = 데이터.sample(10000, random_state=42)

0307

# 데이터의 타입을 datetime으로 변경
pd.to_datetime(데이터)
# 컬럼 수 지정
pd.options.display.max_columns

# 데이터 병합
# how='left': 오른쪽에 결측치가 있어도 왼쪽 기준으로 합침.
데이터.merge(합칠 데이터, on=기준, how='left/right')

.set_index()
.to_dict()

상삼각그래프 그리기

# 1로 채워진 array 만들기
# np.ones(corr.shape)
# triu: 밑에 0, tril: 위에 0
상삼각행렬 = np.triu(np.ones_like(corr))

sns.heatmap(데이터, annot=글씨, fmt='.소수점몇번째까지f', cmap=색, vmin=최저 색의 기준 값, vmax=최고 색의 기준 값, mask=상삼각행렬)

# groupby 사용
df.groupby(["연령대",'성별'])['금액'].sum().unstack().plot.bar(figsize=(10,3))

# pivot_table 사용
df.pivot_table(index='연령대', columns='성별', values='금액', aggfunc='sum').plot.bar(figsize=(10,3))

HI,HYEN

Today I Learn

이전 포스트

[멋쟁이 사자처럼 AIS7][0304:0305]

다음 포스트