데분프_0517

allzeroyou·2022년 6월 5일

데이터분석프로그래밍

목록 보기

18/25

회귀분석: 데이터의 추세선으로 데이터를 예측, 추정하기 위함
상관분석: 변수들간에 어떤 상관관계가 있는지 확인

0~1까지, 절댓값 1에 가까울수록 상관성이 높음.
0에 가까울수록 상관성(correlation)이 없음

상관 계수 구하기

히트맵이 어떻게 나오는지를 보고 상관계수를 구할 수 있음

titanic_corr = titanic.corr(method='pearson')
titanic_corr

연속형변수에 대해서만 상관계수 구할 수 있음(불린값x)

=> 어떤 변수와 양의 상관성, 음의 상관성이 있느냐?

상관성이 떨어져보이는 걸 삭제하느냐 마느냐 결정시 사용

산점도를 뿌려 데이터 분포 확인

히트맵으로 데이터 분포 확인

titanic = titanic.drop(['alone','adult_male'], axis=1, inplace=False)

def category_age(x):
    '''
    나이: 1,2,3,.., 9는 0
    11,12,13..., 19는 1
    21,22,...,29는 2
    101,102,...,109는 100
    '''
    return int(x//10) # 파이썬에서 몫 구하는 법: //

titanic['age2']=titanic['age'].apply(lambda x:int(x//10)) # 몇줄 안되는 코드이기에, lambda로 함수 작성 가능
print(titanic['age2'],titanic['age'])

# apply: 가로축 연산, 세로축 연산
# map은 series의 경우 apply와 같은 연산임. 단, map의 경우 함수 또는 딕셔너리가 들어갈 수 있다!