[ProDS] 실기 - 상관분석

swb·2022년 11월 23일
0

ProDS

목록 보기
3/5

상관분석

주요함수

1. corr()

  • method에 "pearson", "kendall", "spearman"은 각각의 상관계수로 계산

2. pearsonr()

  • 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력

3. spearmanr()

  • 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력

4. kendalltau()

  • 입력은 두 일차원 벡터를 넣고 출력은 상관계수와 p-value가 차례대로 출력

01. 기온, 체감온도, 상대습도, 총 자전거 대여 숫자의 상관관계를 분석하였을 때 가장 낮은 상관계수는 얼마인가?

df = pd.read_csv("bikc.csv")
df[["temp", "atemp", "humidity", "casual"]].corr().round(2)

02. 계절별로 체감온도와 자전거 대여 숫자의 상관관계를 알아보고자 한다. 이 때 적절한 상관분석 기법을 사용하였을 때 상관계수로 옳은 것은?

df = pd.read_csv("bike.csv")

df[["season", "atemp", "casual"]].groupby("season").corr()

03. 날씨에 따른 기온과 자전거 대여의 상관계수 변화를 알아보고자 한다. 날씨가 맑은 날과 그렇지 않은 날의 상관계수 차이의 절대값은 얼마인가?

df = pd.read_csv("bike.csv")

df["is_sunny"] = df["weater"] == 1) + 0 # 맑은 날 1, 그렇지 않은 날 0
df_corr = df.groupby("is_sunny")[["temp", "casual"]].corr()
df_crr # 값 확인

round(abs(df_corr.iloc[1, 0] - df_corr.iloc[3, 0]),3)
profile
개발 시작

0개의 댓글