[Zero-Base]데이터 취업 스쿨 스터디 노트(EDA_Test1)

강현정·2024년 6월 26일

zero_base

목록 보기
39/54

✏️Data type변경

  • object에서 int로 바꾸고자 할때, 천단위표시(,)가 있는 경우!
  • str형으로 바꾼 뒤 ','를 '' <= 공백으로 바꾼 뒤 astype으로 정수형 변환
    df['세대'] = df['세대'].str.replace(',','').astype(int)

✏️딕셔너리 key, value

region_dict = {'도심권': ['종로구', '중구', '용산구'],
               '동북권': ['성동구', '광진구', '동대문구', '중랑구', '성북구', '강북구', '도봉구', '노원구'],
               '서북권': ['은평구', '서대문구', '마포구'],
               '서남권': ['양천구', '강서구', '구로구', '금천구', '영등포구', '동작구', '관악구'],
               '동남권': ['서초구', '강남구', '송파구', '강동구']
               }
  • 이 경우 region_dict.items()하면 각 값들이 출력되고, region_dict['도심권']을 하면 해당 키의 밸류값이 출력된다.

✏️at모듈

  • pandas dataframe에서 특정 위치의 값을 읽거나 쓰기 위해 사용되는 메서드
  • 인덱스와 열 이름을 사용해 단일 값을 빠르게 접근 가능
  • DataFrame의 새로운 컬럼을 만들어 값을 집어넣을때 유용
  • df.at[idx,'권역'] = '동북권'
    (df 데이터프레임에 "권역"이라는 새로운 컬럼을 만들고 원하는 index에 값(동북권) 저장)
  • df_pivot.at[idx,'여성비율'] = round(df_pivot['여자'][idx]/df_pivot['합계'][idx]*100,6)
  • at의 경우에는 데이터프레임명으로 컬럼사용

✏️피어슨 상관계수

  • 원하고자 하는 데이터프레임 범위를 만들고, .corr()사용
  • ()안에는 'pearson', 'kendall', 'spearman'등이 들어갈 수 있다.
  • df_pivot.iloc[:,6:].corr('pearson')

✏️그래프 시각화

def drawGraph():
    df.sort_values(by = '고령자비율').plot(
        x = '자치구',
        y = '고령자비율',
        kind = 'barh',
        grid = True,
        figsize=(10,10))
    plt.legend = '고령자 비율'
    plt.ylabel= df['자치구']
    

drawGraph()
  • barh에서 x,y라벨 설정해서 컬럼값 맞추기

pie 그래프 참고:https://blog.naver.com/titltn/222789996865

0개의 댓글