Day96

김재현·2023년 10월 13일

JUPYTER/DL/ML

목록 보기

63/73

계층적군집(4) - EastWestAirlines Data

군집분석에서 중요한 점

1. 너무 많은 변수를 사용할 위험

군집분석은 주로 고객을 분류하는데에 사용

변수를 이것 저것 다 넣으면 기계가 알아서 해주겠지하는 기대 심리를 경계

변수를 너무 많이 넣을 경우

알고리즘 실행시간 증가
모델이 복잡해져 과적합 위험 증가
결과 검토에 대한 난이도가 증가

2. 변수간 관계 미리보기

변수간의 상관관계 확인

상관계수 히트맵
산점도 행렬

주성분(PCA) 분석 활용하기

주성분(PCA) 분석은 데이터의 특징을 최대한 손실 없이 살리면서 데이터의 차원을 축소하는 기법

클러스터링 분석에서도 취급하는 변수의 수를 줄일 때 유용하게 사용할 수 있다

3. 그 밖의 내용

문자열 데이터는 불가. 존재한다면 미리 라벨링 진행
- 명목형 변수는 결과에 큰 영향을 미치지 않음
이상치에 민감하므로 이상치 정제 혹은 표준화를 수행
- 도메인 지식에 근거한 분석가의 주관으로 판단하는 것도 하나의 방법
- 대부분의 이상치는 표준화를 진행하면 해결

군집분석의 결과

비지도 학습이므로 정답이 없는 상태에서 시작하므로 훈련/검증 데이터를 분할할 필요가 없다

군집의 결과 역시 정답이 아닐 수도 있음

적용 가능한 하이터 파라미터들을 다양하게 설정해 시각화 결과가 가장 고르게 군집을 형성하는 경우를 선택. 선택 기준에 실루엣 점수를 반영하는 것도 고려할 수 있다(실루엣 계수는 군집분석에서 절대적인 계수가 될 수는 없기 때문).

이상치 정제

이상치로 보이는 값이 관측되지만 실제로는 이상치 제거보다는 스케일링을 통한 이상치 정제가 더 활발

본인이 생성한 자료가 아닌 이상 해당 분야 전문가의 도메인 지식에 근거한 분석가의 판단하에 이상치를 정제

데이터 표준화

표준화를 진행하면 numpy(2차원) 배열로 변경

가급적 표준화를 통해 생성된 numpy를 DF 형태로 변경 후 분석에 사용

DF 생성

원본 데이터의 index가 의미없이 0부터 시작할 경우 DF에서 따로 index를 지정하지 않음
원본 데이터의 column을 index로 지정하거나 데이터의 index에 의미가 있다면 DF에서 index를 지정

ndf = DataFrame(n_data, columns=origin.columns, index=origin.index)

scipy, sklearn

scipy과 sklearn을 같이 사용하는 이유

scipy : 군집을 몇 개로 나누면 되는지 판단하기에는 좋음. 단, 각 그룹이 몇번 그룹에 속한지 알기는 어려움

sklearn : 각 데이터가 속한 그룹을 알기 쉬움. 때문에 scipy로 분석한 데이터를 사용, 각 그룹이 몇 번 그룹에 속한지를 도출 가능

Scikit-learn (sklearn)

목적 : Scikit-learn은 기계 학습 및 데이터 분석을 위한 라이브러리로, 주로 지도 및 비지도 학습 모델의 학습, 평가 및 예측을 수행하는데 사용.

주로 사용되는 분야

분류 (Classification) : 지도 학습의 일부로, 데이터 포인트를 미리 정의된 클래스 또는 범주로 분류하는 데 사용. 예를 들어 스팸 메일 탐지, 감정 분석, 질병 진단 등.

회귀 (Regression) : 지도 학습의 일부로, 데이터 포인트의 값을 예측하는데 사용. 주식 가격 예측, 부동산 가격 예측, 수요 예측 등.
군집 (Clustering) : 비지도 학습의 일부로, 데이터를 비슷한 그룹 또는 클러스터로 그룹화. 고객 분류, 이미지 분할 등.
차원 축소 (Dimensionality Reduction) : 데이터의 특성을 줄여 더 간단한 형태로 만들고, 시각화 및 데이터 압축에 사용.
교차 검증 및 모델 선택 : 모델의 성능을 평가하고 최상의 모델을 선택하기 위한 도구로 사용.

사례

지도 학습 : 분류(Classification), 회귀(Regression), 예측(Prediction)
비지도 학습 : 군집(Clustering), 차원 축소(Dimensionality Reduction)
전처리 : 데이터 스케일링, 특성 추출, 누락된 데이터 처리
모델 평가 및 선택 : 교차 검증(Cross-Validation), 그리드 서치(Grid Search)

SciPy

목적 : SciPy는 수치 계산과 과학 및 공학 문제 해결을 위한 라이브러리로, 과학 및 공학 컴퓨팅에 관련된 여러 영역의 기능과 도구를 제공. SciPy는 선형 대수, 최적화, 신호 처리, 통계 및 특수 함수 등 다양한 수학적 기능을 포함.

주로 사용되는 분야

수치 계산 및 과학 및 공학 연구: SciPy는 다양한 수학적 문제를 해결하는 데 사용. 예를 들어, 선형 대수 (행렬 연산, 고유값, 특이값 분해), 최적화 (함수 최적화, 제한 조건 하에서 최적화), 통계 (확률 분포, 통계 테스트), 신호 처리 (필터링, 스펙트럼 분석) 등 다양한 수학 및 과학 분야에서 활용.

사례

수치 해석: 수치적 미적분, 미분 방정식 해법
선형 대수: 행렬 연산, 고유값 분해, 특잇값 분해
통계: 가설 검정, 확률 분포, 통계 분석
신호 및 이미지 처리: 필터링, 푸리에 변환, 영상 복원
최적화: 비선형 최적화 문제 해결

종합

scikit-learn은 주로 머신 러닝과 관련된 작업에 사용, SciPy는 수학적 및 과학적 계산을 다루는 데 사용.
하지만 두 라이브러리는 상호 보완적이며, 프로젝트의 요구에 따라 교차로 사용이 가능.

지도학습

Tensorflow fit(학습) 결과값을 return
scikit-learn은 fit(학습) 결과값을 return 받을 필요가 없음

김재현

이전 포스트

Day95

다음 포스트

Day96

JUPYTER/DL/ML

계층적군집(4) - EastWestAirlines Data

군집분석에서 중요한 점

1. 너무 많은 변수를 사용할 위험

변수를 너무 많이 넣을 경우

2. 변수간 관계 미리보기

변수간의 상관관계 확인

주성분(PCA) 분석 활용하기

3. 그 밖의 내용

군집분석의 결과

이상치 정제

데이터 표준화

DF 생성

scipy, sklearn

Scikit-learn (sklearn)

주로 사용되는 분야

사례

SciPy

주로 사용되는 분야

사례

종합

지도학습

Day95

Day97

0개의 댓글