Week 6-1. 데이터 전처리

BEBELOG·2022년 8월 14일

제로베이스_데이터취업스쿨5기

목록 보기

8/15

의미
Data Preprosessing
raw data를 데이터 분석 목적과 방법에 맞는 형태로 처리하기 위해 불필요한 정보를 분리 제거하고 가공하는 예비조작
목적
빅데이터 분석, 데이터 마이닝을 위해 각 알고리즘에 맞는 데이터를 준비하기 위해

빅데이터 :
1) 3V : Volume / Variety / Velocity + Value/Visualization/Veracity
2) 데이터 변화 -> 기술 변화 -> 인재, 조직 변화
데이터 마이닝 : 많은 정보 가운데 숨겨진 상관관계 발견하여 미래에 실행 가능한 정보를 추출하고 의사결정에 활용 -> 데이터베이스 마케팅의 핵심 기술

파이썬의 라이브러리 : 함수와 메소드로 이루어진 모듈 집합

cf. 다중의 리스트 구조 vs 배열
배열은 리스트와 다르게 같은 데이터 타입으로 이루어짐

numpy는 다차원 배열 계산에 활용 / Pandas와 함께 연계
대부분의 정형 데이터 세트는 행렬로 이루어져 있고 딥러닝 분석에서 가능

표 형태의 데이터를 조작하는데 특화
엑셀이 제공하는 거의 모든 기능을 구현
데이터 베이스 문도 손쉽게 구현

피벗테이블 : 방대한 표의 데이터를 요약하는 통계표
- pd.pivot_table(df, index = '행 인덱스', columns = '열 인덱스', values = '조회하고 싶은 값', aggfunc='집계방식')
Groupby : 같은 값을 그룹으로 묶어서 분석

JOIN : 두 개의 데이터 프레임을 겹치는 인덱스 기준으로 합치는 것
- df1.join(df2, on='키 인덱스', how ='조인방법(inner, left, right, outer)', sort='정렬여부')
- 키로 지정할 열을 인덱스화 *
  set_index('키로 지정할 열')
Merge : 두 개의 데이터 프레임을 겹치는 값 기준으로 합침
- 두 개이상 겹치는 칼럼만 있으면 됌.
- pd.merge(df1, df2, on='키 칼럼', how='방법', sort='정렬여부')
Concat : 단순 합
행이나 열방향으로 붙이기(axis=0 : 행방향, axis=1 : 열방향)
pd.concat([df, df2], axis='붙이는 방향')

astype() : 자료형 변환
datetime : 날짜와 시간 데이터를 처리하기 위해 지원하는 자료형, 날짜 슬라이싱과 시간 연산 가능
- pd.to_datetime(df['칼럼명'])
- pd.to_timedelta(df['칼럼명'], unit='시간 간격 단위' / day, hour, min, sec

결측값 : NaN, N/A, NULL, 0
결측값 제거 : dropna() * subset : 해당컬럼만 검사
결측 데이터 치환 : fillna() 결측값을 대체할 값
- mean /value_counts().index[0]
reset_index() : 인덱스로 재정렬 - 결측치를 제거하거나, 전처리하는 과정에서 데이터 프레임의 인덱스가 바뀌는 현상이 나타나는데 마지막에 인덱스 정렬을 해주면 분석과정의 문제 줄일 수 있음
중복값
- duplicated() : 행이 완벽히 중복된 여부 검사
- drop_duplicates() : 중복행 제거
- drop_duplicates(subset = ['Group']) : 특정 열을 기준으로 제거
- drop_duplicates(subset = ['Group'], keep='last') : 특정 열을 기준으로 제거를 하나 마지막 값은 남긴다.

apply : 데이터에 구체적인 로직을 적용하고 싶을 때
def 함수 만들고 apply
lambda : apply에서 def 정의된 함수와 동일한 기능, 한줄로 편하게 작성 가능
- lambda '입력변수': '리턴값' '조건문(옵션)'
map : 데이터 값을 특정 값으로 매핑하고 싶을 경우
- df['컬럼명'].map('매핑 정보')

[출처 : 한 번에 끝내는 직장인 파이썬]

비전공자 Will be 전문가