4/11 개발일지

정명환·2022년 4월 11일

Data Preprocessing jupyter notebook python

대구 ai 스쿨

목록 보기

13/79

data preprocessing (데이터 전처리)
DATA를 분석하기 용이하게 고치는 모든 작업
결측치:중요 데이터 빠짐
데이터 오류 : 잘못된 데이터 입력
이상치 : 일반적 범위 벗어남
데이터 형식 : 분석하기 적합x
범주형 데이터 : 다른 형태로 되어있다.

scaling(변수 크기를 일정하게 맞추기{min-max:범위 0~1 사이로 변경}{srandard scaling:데이터 평균이 0, 표준 편차가 1이 되도록}) - 전복데이터로 실습
sampling(클레스의 불균형 문제를 해결하기 위함{oversampling:적은 클래수 수를 증가}{undersampling:많은 클래스 수를 감소}{random over}{under sampling})
dimensionality reduction(고차원으로 올라갈수록 크기 증가 -> 빈공간 생김 -> 에러발생, 그래서 차원을 낮춤, 주성분 분석{PCA})
categorical variable to numeric variable(범주로 분류될 수 있는 변수를 의미{lable encoding:문제를 단순화 시킬 수 있음}{one-hot encoding:분명한 구분}

비지도 학습(자율학습)
밀도추정과 깊은 연관이 있음, 데이터의 주요 특징 요약 가능
Clustering(군집)
계층적 군집, point assignment 군집
K-means 클러스터 : 대표적인 군집 알고리즘, 중심점을 계속해서 찾는다, 거리 기반 알고리즘
{manhattan distance - 각축에 대해 수직으로만 이동}
{euclidean distance - 가장 짧은 거리 계산}
Hierarchical 클러스터 : 거리와 유사도 기반 알고리즘, 가까운 클러스터끼리 병합해서 1개가 될 때까지 반복
{single linkage:가장 가까운 점 사이 거리} 사용 잘안함
{complete linkage:가장 먼 점 사이 거리}
{average linkage:두 클러스터 내의 모든 점 사이 평균 거리}

정명환

JAMIHs

이전 포스트

4/8 개발일지

다음 포스트

4/11 개발일지

대구 ai 스쿨

4/8 개발일지

4/12 개발일지

0개의 댓글