DataScience 5

정선용·2024년 2월 11일

DataScience

목록 보기
5/7

머신러닝

머신러닝 개요 및 유형

머신러닝(Machine Learning)

  • 머신러닝 종류

    • 지도학습(Supervised Learning)
      • 학습 데이터 안에 입력값에 대한 출력값이 함께 제시됨
      • 알고리즘은 입력값과 출력값 사이의 관계를 가장 잘 설명할 수 있는 "모델"을 찾고 이를 사용하여 새로운 입력값에 대한 예측 수행
      • 출력값이 수치형인 회귀와 범주형인 분류 문제로 나누어짐
    • 비지도학습(Unsupervised Learning)
      • 학습 데이터 안에 출력값이 없음
      • 알고리즘은 학습 데이터의 특징만을 활용하여 목표한 결과를 산출, 적절한 군집을 찾거나 변수의 복잡성을 낮추기 위한 자원 축소 등이 포함
  • 일반적인 ML Steps

    • Collect data : 유용한 데이터를 최대한 많이 확보하고 하나의 데이터 세트로 통합 (1.데이터 결합)
    • Prepare data : 결측값, 이상값, 기타 데이터 문제를 적절하게 처리하여 사용 가능한 상태로 준비 (2.결측값 또는 이상값 탐지 및 처리)
    • Split data : 데이터 세트를 학습용과 평가용 세트로 분리 (3.Train, Test 데이터 분리)
    • Train a model : 이력 데이터의 일부를 활용하여 알고리즘이 데이터 내의 패턴을 잘 찾아 주는지 확인
    • Test and validate a model : 학습 후 모델의 성능을 평가용 데이터 세트로 확인하여 예측 성능을 파악 (4. 학습용 데이터로 모델 생성 -> 평가용 데이터를 생성한 모델에 넣어 성능 확인)
    • Deploy a model : 모델을 의사결정 시스템에 탑재/적용
    • Iterate : 새로운 데이터를 확보하고 점증적으로 모델을 개선

특성공학 : Under/Over fitting

특성 공학(Feature Engineering)

  • 개념
    원시 데이터를 다루고 있는 문제를 더 잘 표현할 수 있는 특징(Feature)으로 변환하는 과정
  • 중요성 : 단순한 모델로 좋은 성능을 낼 수 있다
  • Feature
    • 대상 문제에 유용하거나 의미 있는 특징
    • Feature의 중요도를 객관적으로 측정할 수 있고 그 크기에 따라 모델에 포함하거나 제외할 수 있음
      • 상관계수, 회귀계수와 p-value, 의사결정나무의 feature importance
  • 방법
    • Feature Selection
      • Forward Selection 또는 Backward Elimination
    • Feature Extraction
      • Raw 데이터에서 새로운 데이터 만드는 개념
      • 자동화 과정이다.
      • vs Feature Construction
        • Raw데이터에서 새로운 데이터 만드는 개념
        • 수작업이다.
      • vs Feature Learning
        • Raw데이터에서 새로운 데이터 만드는 개념
        • 비지도학습
    • 정규화(Regularization)
      beta(파라미터)값에 제약을 줌으로서 모델을 정규화. 일반성을 띄게 해준다. : feature의 영향을 줄이는 방법.

Underfitting

  • 모델의 복잡도
    • 입력변수가 증가하면 모델 복잡도 증가
    • 출력변수의 가능한 class가 늘어나면 모델 복잡도 증가
    • 입력변수와 출력변수 간 관계가 비선형적이면 모델 복잡도 증가
  • 개념 : 주어진 입력 데이터에 비해 모델의 복잡도가 너무 낮아 입력 데이터로부터 충분히 학습하지 못하는 상황 (모델이 너무 단순해 정답을 잘 못 맞추는 것) : High bias
  • 대응방법
    • 학습 시간을 늘린다
    • 더 복잡한 모델을 구성한다.
    • 모델에 추가 Feature를 도입한다
    • Regularization을 사용하지 않거나 영향을 줄인다
    • 모델을 다시 구축한다

Overfitting

  • 개념 : 주어진 입력 데이터에 비해 모델의 복잡도가 너무 높아 입력 데이터의 잡음까지 fitting하는 경향을 보이고 일반화에 실패하는 상황 : High variance
  • 대응방법
    • 학습을 더 일찍 멈추게 한다
    • 데이터를 추가한다
    • 모델의 복잡도를 낮춘다
    • 일부 feature를 제거한다
    • Regularization을 활용한다.

특성공학 : 모델평가기법

Data Split과 모델 검증,선택,평가

  • Hold-Out
    • 데이터를 두 개 세트로 나누어 각각 Train과 Test set으로 사용
    • 7:3~9:1가 일반적이나 알고리즘 특성,상황에 따라 적절 비율 사용. Train-Validation-Test로 나누기도 함
  • Cross Validation (교차검증)
    • 전체 데이터 세트를 임의 k개 그룹으로 나누고, 그 가운데 하나의 그룹을 돌아가면서 테스트 데이터 세트로, 나머지 k-1개 그룹은 학습용 데이터 세트로 사용하는 방법
  • 일반적인 모델 선택 과정
    • 여러 모델을 대상으로 Cross Validation을 수행
    • 가장 좋은 결과를 낳은 하나 / 소수의 모델 선택
    • 학습 데이터를 모두 사용하여 모델 생성
    • 분리해 놓은 평가 데이터로 모델 평가
  • 모델 평가
    • 모델 평가에 가장 널리 사용되는 지표는 예측력
      • 회귀 모델의 평가에는 오차의 크기
      • 분류 모델의 평가에는 정확도 개념 사용
    • 예측력이 유일한 지표는 아니며, 지표들이 독립적이지 않으므로 입체적인 고려가 필요
      • 해석력 : 입력과 출력 간 관계를 잘 설명하는가
      • 효율성 : 유사한 성능을 보이는 경우, 적은 입력 변수로 모델을 구축하는가
      • 안정성 : 새로운 데이터 세트에도 같은 성능의 결과를 나타내는가

모델 평가 지표

  • 회귀 모델
    : 예측 대상이 연속형 수치 데이터인 경우

    • MSE : 에러 제곱의 평균
    • RMSE : MSE에 루트
    • MAE : 에러 절대값의 평균
    • MAPE : MAE를 백분율로 표현한 것
  • 분류 모델
    : 예측 대상이 범주형 데이터인 경우

    • Precision(정밀도) : 분류 모델이 Positive로 판정한 것 중 실제로 Positive인 샘플 비율
    • Recall(재현율) : 실제 Positive샘플 중 분류 모델이 Positive로 판정한 비율
    • Accuracy(정확도) : 전체 샘플 중 맞춘 비율
    • F1-Score : Precision, Recall의 조화평균. 0~1사이 값이며 1에 가까울수록 분류 성능이 좋다.

  • 평가지표연습

선형회귀분석(머신러닝파트)

선형회귀 계수의 추정

  • Regression : 한 변수를 다른 변수/변수들의 함수 관계로 표현하는것.
  • Linear Regression(선형회귀분석) : 독립변수 X(1~n개) 로 종속변수 Y를 설명할 때의 관계가 선형 관계
  • Gradient Descent
    • 임의의 시작점에서 Cost Function(손실 곡선)의 기울기를 계산,
    • 기울기가 감소하는 방향으로 이동 후 다시 손실 곡선의 기울기 계산
    • 일정 보폭(Learning Rate), 혹은 점차 감소하는 보폭으로 이동과 기울기 계산을 반복
    • step(learning rate)가 크면 발산 위험이 있고, 너무 작으면 수렴이 느리거나 local optima에서 벗어나지 못할 수 있다.

다중공산성

  • 개념 : 독립변수들 간 강한 상관관계사 존재하는 상태
    • 다중공산성이 있을 때에는 독립변수와 종속변수 간의 영향 정도를 정확히 산출하지 못하는 현상이 나타남
  • 확인 방법
    • X변수들 간의 산점도나 상관계수를 보아 상관성이 높은지 확인
    • VIF(Variance Inflation Factor)가 10 이상인 설명(독립)변수
  • 해결방법
    • 다중공산성이 있는 독립변수를 제거
    • 주성분분석(PCA)를 통해 추출된 서로 독립인 주성분을 사용하여 회귀분석 수행
    • Ridge나 LASSO 기법을 활용하여 가중치를 조정

회귀모형에서 명목형 번수의 처리

  • One-Hot Encoding
    • 열(Column)에 범주형 데이터의 항목을 추가하고, 값을 수치(0또는1)로 표시하는 것
  • Dummy Variable (or Index Variable)
    • One-Hot Encoding의 단점인 컬럼이 증가하게 됨
    • 기울기 추정이 불가능해지고, 이를 보완하기 위해 1개의 항목을 제거하는 것을 Dummy화 라고 함.

Penalized Regression

  • 변수 많은 경우 최적의 회귀 계수 추정이 어려우므로 사용된 변수 선택 기법 (forward selection, backward selection)
    -> 변수 선택 과정이 비연속적 방법으로 고차원의 상황에서 최적의 변수 집합 찾는 것 확신 불가

  • Penalized Regression : 벌점화 회귀 , 모델 평가 기준인 예측력과 안정성을 위해 기존의 비용 함수에 벌점함수를 더한 형태의 새로운 비용함수를 정의, 이러한 비용함수를 최소화하는 모수를 찾는 과정인 규제를 거침.

    • 공통 원리로 SSE(잔차)에 Penalty를 더하여 [SSE+f(x)=penalty]를 함께 축소시키는 것을 목표로 함.

    • Ridge와 Lasso는 다중공산성을 정규화 시키는 방법

  • Ridge Regression : 과적합을 피하고 일반화 성능을 강화하는 방법 (L2 Norm Regularization)

    • 다중공산성 관계가 있는 독립변수의 가중치를 조절
    • 패널티 항 : 파라미터의 제곱의 합. 람다가 패널티를 조절하는 값.
  • LASSO (Least Absolute Shirinkage Selector Operator) (L1 Norm Regularization)

    • 다중공산성 관계가 있는 독립변수를 삭제
    • 패널티 항 : 파라미터 절대값의 합. Ridge의 가중치들은 0에 가까워질 뿐 0이 되진 않지만, LASSO의 가중치들은 0이 된다. 특성이 많은데 그 중 일부만 중요하다면 LASSO가, 특성의 중요도가 전체적으로 비슷하다면 Ridge가 더 좋을 수 있다.

로지스틱 회귀분석

Classification

  • Classification
    • Supervised Learning의 일종
    • 입력 데이터에 존재하는 Feature 값들과 label 값의 class간의 관계를 학습하여 새로 관측된 데이터의 class를 예측하는 문제

Logistic Regression

  • 이진 분류

    • Label 값으로 0/1, Y/N과 같이 두 가지 class만 가능
  • 프로세스 개요

    • 독립변수들(x)의 선형결합과 종속변수(y)의 class간 확률적 관계 학습
    • Gradient Descent로 최적화된 coefficients와 intercept를 계산
      * Threshold를 조절하여 positive class와 negative class를 어떻게 나눌지 설정 : y값을 확률로 가정. (0.5 기준으로 0/1 , Y/N..)
  • 변환 과정

    • Odds(승산) (0~∞)

    • Logit(로짓) (-∞ ~ ∞)

    • 역함수 ( 0 ~ 1)

  • XOR문제

    4번은 로지스틱 회귀분석 또는 선형분류모델로 볼 수 없다.

  • Thresholds

    • T 기본 임계값은 0.5
    • P(Y=1) >= 임계값 이면 1로 분류 / P(Y=1) < 임계값 이면 0으로 분류
    • 임계값을 낮추면 Recall(민감도)가 높아져 오분류가 높아지더라도 Y=1인 경우를 최대한 분류
    • 임계값을 높이면 Precision이 높아지게 되어 알파 오류를 최소화하는 경향이 있음
  • Regression과 비교

    • 선형회귀
      • 종속변수는 y값 자체
      • 회귀계수는 해당 독립변수 값이 1단위 증가할 때 종속변수 y의 변화량
      • 비용함수는 예측오차의 최소화
    • 로지스틱 회귀
      • 종속변수는 logit확률로부터 도출한 class 값
      • 회귀계수는 해당 독립변수 값이 1단위 증가할 때 log(odds) 변화량
      • 비용함수는 cross entropy의 최소화 혹은 log likehood의 최대화
  • ROC (Receiver Operating Characteristic) and AUC(Area Under the Curve)

    • 임계값 변경에 따른 분류 결과 변동의 Trade-off 상황을 그래프로 요약하여 보여줌

    • Negative 중 위양율(False Positive Rate)를 x축에, Positive 중 진양율(True Positive Rate)를 y축에 표시

    • 특이도 감소 속도에 비해 얼마나 빠르게 민감도가 증가하는지 나타

    • AUC = 1이면, 분류기가 Positive와 Negative를 완벽하게 분리

    • AUC = 0.5이면, 분류기가 Positive와 Negative를 구분하지 못함. (무작위 임의 선택과 같은 수준)


      0.7~0.8정도면 fair, 0.8~0.9정도면 good, 0.9 초과 시 excellent

KNN 알고리즘

KNN

  • 개념

    • Test Data와 가까운 k개의 Train Data의 y값들을 비교
    • k 값에 따라 예측 결과가 달라짐
    • 동점을 막기 위해서 데이터가 적을 때에는 k값은 대개 홀수로 정함
  • 활용 : 분류와 회귀 문제를 모두 다룰 수 있음.

    • 분류 : 객체는 k개의 Nearest Neighborhood 사이에서 가장 공통적인 항목에 할당되는 객체로 과반수 의결에 의해 분류
    • 회귀 : k개의 Nearest Neighborhood를 찾고 해당 이웃이 가지고 있는 값의 평균이 output값이 됨.
      • k값이 1에 가까워질수록 Overffiting 걸릴 가능성이 높아지고 k값이 커질수록 모델은 단순해지지만 Underfitting 가능성이 생길 수 있다.
  • 방법

    • 1) 거리 측정

      • Minkowski distance (민코우스키 거리)
        Euclidean 거리와 Manhattan거리의 일반화 형태

      • Euclidean distance (유클리디안 거리)

      • Manhattan distance (맨해턴 거리)

    • 2) 표준화 검토

      • 거리 개념을 사용하는 알고리즘의 경우 Normalization 사용을 항상 검토 필요
    • 3) 정확도 검토

      • k값의 변화에 따른 오분류는 일반성이나 경향성을 가지고 있지 않기 떄문에 최적의 k값을 찾는 것은 쉽지 않음. -> 따라서 k값을 변경하면서 error가 작은 것을 선택.
    • 4) 장점

      • 단순한 알고리즘으로 이해하고 해석하기 쉬움
      • 데이터에 대한 기본 가정이 없으므로 비선형 데이터에 매우 유용
      • 분류와 회귀 모두에 사용 가능하고 이상값 찾기에도 활용 가능
      • 대체로 우수한 결과를 보여줌
    • 5) 단점

      • 상대적으로 높은 계산 비용
      • 데이터 양이 매우 큰 경우 계산 속도가 느려지고 데이터의 지역 구조에 민감
      • 최적의 k값을 정하는 것이 쉽지 않음
        • k가 너무 작은 값이면 잡음에 영향을 받을 가능성(Overfitting)
        • k가 너무 큰 값이면 지나치게 평활될 가능성(Underfitting)
    • 예제

나이브베이즈

나이브 베이즈 분류

  • 개념 : Bayes 법칙에 기반한 분류 기법

    • 독립성을 가정한 기법 : Feature들이 모두 동등하게 중요하며 독립적이라는 가정, 이 가정사항이 다소 비현실적이어서 Naive라는 표현을 사용한다.

    • Bayse Theorem (베이즈 정리)

      • Laplace Smoothing

        • zero frequency문제 : 학습 데이터 중 a단어가 나타나지 않았다면 확률을 0 취급함. : 특정 상수를 더한다. (1또는 0.5 자주 사용)
      • UnderFlow

        • 아주 나타날 확률이 작은 경우 컴퓨터 연산 범위 넘는 현상 발생 가능.
          : exp와 log 활용
      • Feature 개수가 증가 시 기하급수적으로 많은 데이터 필요함

        • 변수 개수 n개라면 최소 2^n개 데이터 필요함. -> 이로 인해 독립이라는 가정 필요
  • 활용 : 스팸메일필터링 등 텍스트분석 / 비정상 행위 탐지/ 일련 관찰 증상에 대한 의학 질병 진단

  • 장점

    • 가장 단순한 지도 학습 방법 가운데 하나로 빠르고 정확한 모델
    • 적은 량의 데이터로도 좋은 정확도를 보여줄 수 있음(잡음,누락 등에 강함)
    • 대량 데이터 세트에서도 빠른 속도를 나타냄
    • 연속형 데이터 보다는 이산형 데이터에서 높은 성능
    • 멀티클래스에도 사용 가능
  • 단점

    • 각 Feature끼리 서로 독립이라는 조건을 가정하나, 현실적으로 독립성 가정 대부분 위배.
    • 모든 특징이 동등하게 중요하게 간주
    • 연속성 수치 데이터가 많은 경우 이상적이지 않음 -> 이산화 필요
    • 조건부 확률이 0이 되는 문제 존재 (방지 위해 상수항 사용)
    • 데이터 사이즈가 작으면 Overfitting 가능
  • 예제

의사결정 나무

의사결정 나무(Decision Tree)

  • 개념 : 의사결정 규칙을 나무 구조로 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 회귀하는 예측 방법
  • 구조와 용어
  • 타입
    • 분류 나무
      • 범주형 목표 변수를 기준으로 마디를 나눔
      • 끝마디에 포함된 자료의 범주가 분류 결과 값이 됨
    • 회귀 나무
      • 연속형 목표 변수를 기준으로 마디를 나눔
      • 끝마디에 포함된 자료의 평균값이 각 끝마디의 회귀 값이 됨
  • 장점
    • 시각화를 통한 쉬운 이해
    • 자료 가공이 거의 필요 없음
    • 수치형 및 범주형 데이터 모두 적용 가능
    • 선형성, 정규성 등의 가정이 필요 없는 비모수적 방법
    • 대량 데이터 처리에도 적합
  • 단점
    • 휴리스틱에 근거한 실용적 알고리즘으로 전역 최적화를 얻지 못할 수 있음
    • 과적합이 쉽게 발생하며 자료에 따라 불안정.
    • Feature 간 복잡한 관계를 처리하지 못함
    • 자료가 복잡하면 실행 시간이 급격히 증가
  • 알고리즘의 특성
    • 불순도를 감소시키는 방향으로 분리 ( select feature & split -> Brute force로 각 변수별 값 바꾸어가며 불순도 비교.)
    • 프로세스
      • 1) 모든 자료를 포함한 root node로 부터 시작한다
      • 2) 자료 가운데 불순도를 낮추는 최적의 요인을 찾는다
      • 3) root node를 최적 요인의 기준값을 찾아 하위 그룹으로 나눈다
      • 4) 각 하위 그룹에 대한 의사결정나무의 node를 만든다.
      • 5) 3,4과정을 더이상 node를 나눌 수 없을 때 까지 혹은 정지규칙에 해당할 떄까지 반복한다.
    • 불순도(Impurity Measure)
      • 지니 불순도(Gini Impurity) : 최대값 0.5
      • 엔트로피(Entropy) : 최대값 1
      • Gini Impurtiy와 Entropy 값이 0에 가까울 수록 분류가 잘 된 것
      • 정보 획득량 (Information Gain, IG) = Gini(parents) - {p(C1) Gini(C1) + p(C2) Gini(C2)}
    • Overfitting : 학습 데이터에 대해서는 좋은 결과를 내나, 새로운 데이터에 대해서는 정확한 예측을 하지 못하는 경우
      • 학습데이터가 부족한 경우
      • 학습데이터에 잡음이 있는 경우
      • 학습데이터에 너무 특화되는 상황
    • 정지규칙
      • 모든 마디가 순수한 상태가 되면 정지
      • 의사결정나무가 완전히 다 자라기 전에 정지하도록 하여 과적합을 방지하거나 지나치게 긴 실행시간을 제한할 수 있음
        • 트리의 깊이(depth)가 지정한 값(Max Depth)에 도달함
        • 노드의 크기가 지정한 값(Min Instance Per Node)보다 작음
        • 불순도의 감소량이 지정된 값(Min Information Gain)보다 적음
    • 가지치기
      • 의사결정나무가 끝까지 자라도록 한 후 상향식으로 가지치기 실행
        • 모델은 단순해지면서 성능이 덜 떨어질 때 까지 잘라본다. 자를수록 데이터는섞이지만 많은 쪽으로 Label을 정함.
    • 중요 Variables
      • Tree 상단에서 사용
      • 자주 사용
      • 혼잡도 개선 효과가 높은 것

군집분석 개요

비지도 학습(Unsupervised Learning)

  • 개념 : 입력 데이터에 Label이 없이 데이터의 특징 만으로 패턴을 찾는 학습 방법
    군집 분석은 비지도 학습 중 하나로 지도 학습과 차이점 위주로 특징 기억해야한다.
  • 비지도 학습 활용 사유
    • Label이 되지 않은 데이터가 더 확보하기 쉬움
    • 잘 알려지지 않은 모든 종류의 패턴을 찾어려는 시도
    • 범주화에 도움이 되는 특징과 패턴을 알아내는데 도움이 됨
    • 새로움 데이터에 대한 실시간으로 처리가능
  • 종류 : Clustering, Association Rule, Dimentsion Reduction

군집 분석(Clustering)

  • 개념
    • 주어진 입력 값을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것
    • 각 집단의 성격을 파악하여 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법
  • 특징
    • 사전에 정의되거나 가정하는 사항 없이 데이터에 의존하는 분석 기법으로 분석가의 해석이 중요
    • 점포 세분화, 고객관리를 위한 구분, 가맹점 세분화 등에 널리 활용됨
    • 하나의 유일한 답이 존재하는 것은 아님
    • 데이터 안에서 찾고자 하는 것, 강조하고자 하는 것에 따라 달라질 수 있음
    • 때로는 Clustering 알고리즘보다 유사도를 어떻게 정의하는가가 더 중요할 수 있음.
  • 거리(Distance)
    • Euclidean Distance
      • 다차원의 실제 값을 기반으로 계산
      • m- 차원 공간의 두 지점 사이의 거리
      • 두 지점 사이의 평균과 같은 개념을 가지고 있음
    • Manhattan Distance
  • 표준화 : 거리 계산을 해야하므로 분석 전 스케일을 맞추는 전처리를 진행해야 한다.
    • Min-Max Scaling : 최대값, 최소값을 0~1 scale로 조정
    • Z-Score/Standard Scaling : 정규화 z-score로 변경
    • Robust Scaling
    • Max-Absolute Scaling

비계층적 군집분석

비계층적 군집분석(Non-hierachical Clustering)

  • 접근법
    • 주어진 데이터를 k개의 군집으로 나눔
    • 원하는 군집의 수 k를 사전에 지정 (알고있다 가정 : 계층적 군집분석 면저 수행하고 대략적인 k를 유추하고 진행한다.)
  • k-평균 군집화(k-means clustering) 알고리즘
    • 군집의 중심이 되는 k개의 Seed 점들을 선택하여 seed 점과 거리가 가까운 개체들을 그룹화하는 방법
      • 1) k개의 중심점을 임의로 배치
      • 2) 모든 자료와 k개의 중심점과 거리를 계산하여 가장 가까운 중심저의 군집으로 할당함
      • 3) 군집의 중심을 구함(평균을 구함)
      • 4) 정지 규칙에 이를 때까지 2~3단계를 반복
        • 군집의 변화가 없을 때
        • 중심점의 이동이 임계값 이하일 때
        • 왜곡값(distortion) : 왜곡값은 작을수록 좋다

K-means Clustering

  • 클러스터 개수(k) 선정
    • 클러스터 개수 k를 사전에 정해야 하며 결과는 k값에 크게 영향 받음.
    • 다른 k값을 이용한 시뮬레이션을 통하여 최선의 선택 시도
    • 클러스터 개수 선정
      • Elbow Method
      • Silhouette coefficient Method : 모든 개체에 대한 Silhouette 값을 계산, 확인하고 클러스터별로 그 값의 분포를 검토하는 방식으로 유효성 검토

      • 군집 대상에 대한 적절한 정보와 이해가 필요
      • 적정한 K값을 지정하기 위한 다양한 시도가 요구됨.
      • 항상 판별이 용이한 팔꿈치가 제시되는 것은 아니기 때문에 Elbow Method와 Silhouette Method를 같이 쓰는것을 권장
  • 장점
    • 대용량데이터에 대한 탐색적 분석
    • 적용이 용이하고 수행이 빠름
    • 언제나 Cluster가 나누어짐
  • 단점
    • 최소 지역 최적화는 달성하지만, 전역 최척화는 장담하지 못함
    • 의미 없는 Cluster가 형성될 수 있음
    • 결과 해석이 어려움
    • 목적에 맞는 변수를 제공해야 함
    • 이상값에 민감
  • 예제
    • 업로드중..
  • 장/단점은 잘 출제됨 비계층적 군집분석 뿐 아니라 머신러닝 기법별 장/단점은 잘 구분해 기억해둘 것. 머신러닝 계산문제도 마찬가지.
profile
정선용

0개의 댓글