![](https://velog.velcdn.com/images/frost_12/post/3765ccc0-015d-4244-9e78-28e06549e97f/image.png)
![](https://velog.velcdn.com/images/frost_12/post/ddb94aad-d217-4e24-86dc-85a45db78bb9/image.png)
=> 2일차에 데이터분석 방법론 : ADSP / 시각화 라이브러리 += seaborn
Ch1. 분석을 위한 데이터 구조
앞에 챕터에 정리함
Ch2. 데이터프레임 변경
▫️ .rename() 메소드
- 기본값 : inplace = False => 진짜 바꾸는게 아니고 조회
![](https://velog.velcdn.com/images/frost_12/post/233c84b1-e91b-4f1f-a24b-f8633918d242/image.png)
▫️ .drop()
▫️ np.where( )
▫️ .map( )
- 주로 범주형 값을 변경할 때
![](https://velog.velcdn.com/images/frost_12/post/bd2cd49c-dfeb-4dc0-97ca-27578bde0253/image.png)
▫️ pd.cut(해당 열, 몇 등분 or bins = [ , , ], label = [' ', ' '])
- 숫자 => 범주
![](https://velog.velcdn.com/images/frost_12/post/aa4ede2e-f89b-44c8-8648-08513794e5a5/image.png)
Ch3. 데이터프레임 결합
▫️ pd.concat( [ , ], axis = , join = 'inner' or 'outer')
▫️ pd.merge( , , how = 'inner' or 'left' or 'right', on = ' ' )
![](https://velog.velcdn.com/images/frost_12/post/ebd541b3-766a-417e-891b-7144bd852592/image.png)
▫️ pivot( 인덱스, 열 제목, 값 )
Ch4. 시계열 데이터 처리
▫️ pd.datetime( ).옵션 붙일 수 있음
▫️ .shift(얼마나 이동시킬 건지 숫자)
▫️ .rolling().집계함수
Ch5. 데이터분석 방법론
앞에 챕터에 정리함
Ch6. 시각화 라이브러리
▫️ matplotlib과 seaborn 패키지
- plt 옵션 : plt.xticks(rotation = 각도) / .xlabel(' ') / .ylabel(' ') / .title(' ') / .plot(color = , linestlye = , marker = ) / .legend() => 범례추가, 위치 조절 가능 / .grid()
Ch7. 개별 변수 분석 도구 (단변량 분석)
▫️ 숫자형 변수
- 평균, 중위수, 최빈값(mode), 사분위수
- 기초 통계량 : .describe()
▫️ 시각화
- 히스토그램 : plt.hist( , bins = )
- 밀도 함수 : sns.kdeplot(data[' '])
- 박스 플롯 - 반드시 NaN 제거 (sns는 알아서 빼고 그려줌): plt.boxplot( , vert = False or True(세로))
▫️ 범주형 변수
- 범주별 빈도수 : value_counts()
- 범주별 비율 : value_counts() / .shape[0] => 데이터 프레임의 행, 열 수로 나눠줌
▫️ 시각화
- 바 플롯 : sns.countplot - 범주별 빈도수 계산해서 바플롯으로 나타냄,
plt.bar - 빈도수를 계산한 결과를 입력해야 범주별 빈도가 그려짐
sns.countplot(x = ) - 집계와 barplot을 한번에 그려줌
![](https://velog.velcdn.com/images/frost_12/post/67c0e90f-d4fb-42eb-9cc1-91158cc36a45/image.png)
![](https://velog.velcdn.com/images/frost_12/post/4b6b2f2a-f1f0-4e73-9d5a-ff792c74a2ac/image.png)
![](https://velog.velcdn.com/images/frost_12/post/ac3fd243-e37e-4334-a459-0d8b8fb3e49c/image.png)
![](https://velog.velcdn.com/images/frost_12/post/977ef33b-f170-44d8-99d1-bd1d920a862e/image.png)
▫️ 단변량 분석, 함수로 한번에
추가자료. 모델링을 위한 데이터 전처리
- 모델링을 위한 최소한의 데이터 전처리 3가지 요건
- 모든 셀에 값이 있어야함
- 모든 값은 숫자이어야함
- 옵션 값의 범위를 일치 시켜야함
- 방법
- 결측치(NaN) 조치
- 범주를 숫자로 변환하는 가변수화
- 범위를 일치시키는 스케일링