[통계학] 인자분석과 군집분석

서효정·2023년 2월 15일
0

통계학

목록 보기
4/5
post-thumbnail

다중공선성 문제

: 서로 강한 상관관계에 있는 변수들을 모두 설명변수로 채택하고 '다른 변수들의 항목의 점수가 같을 때~'의 관련성을 보면 본질을 외면한 결과가 얻어질 위험성 존재

대응방법

  1. 상관이 강한 다수의 항목에서 대표적인 일부 항목만 골라 설명변수로 채택
  • 서로 상관이 있는 것 같은 설명변수에 대해서 회귀계수에 관한 p-값이 가장 작은 것만을 설명변수로 채택

  • 단계별변수선택법을 적용하여 설명변수 채택

  1. 상관이 강한 항목끼리 합산하여 하나의 설명변수도 대체
  • 서로 상관하는 설명변수를 모두 더하는 것

  • 다수의 변수를 적은 수의 변수로 줄이는 것 (=축소한다)

  • '축소'의 문제점
    1) 항목들이 진정으로 상관하고 있는지의 문제 (직감에 의존)
    2) 항목들이 상관이 있더라도 그 강도가 동일하지 않는다

    이러한 문제를 해결하는 분석방법이 '인자분석'

💡 인자분석 (factor analysis)

  • 인자 : 현실적으로 측정할 수 있는 값을 좌우하는, 보지도 만지지도 못하는 무언가 (ex. 지능, 리더십, 라이프스타일, 행복감)

  • 인자분석 : 인자를 수학적으로 명백히 밝히는 일

  • 비즈니스 관련 설문조사 결과나 행동 로그 데이터에 활용하면 좋음

    • '이 업계에서 브랜드 이미지는 어떤 인자에서 포착할 수 있는가?'
    • '이 매장의 상품을 구매함으로써 알 수 있는 라이프스타일에는 어떤 인자가 있는가'

💡 인자분석 방법

  • 두 가지 종류의 변수 산포도에서 산포도에 놓인 점의 정중앙을 긋는 직선 구하기
    • 직선을 구하는 방법 (인자의 추정방법) : 최소제곱법(뉴턴-라프슨법 활용), 최고가능도법, 주인자법, 주성분법, 알파인자법, 이미지 인자법
  • 산포도의 점의 중심을 통하는 직선을 기준으로 그 직선과 수직인 점선들을 그어 비교
    • 인자점수 : 인자분석에 의해 얻어진 눈금으로 판단한 값
    • 가급적 본래의 변수와 강하게 상관관계에 있는 지표로 추정되는 것

[출처: 빅데이터를 지배하는 통계의 힘]

  • 2개 이상의 여러가지 변수를 가지는 경우, 인자분석에 의해 인자점수를 정의할 수만 있다면 다수의 변수 전체를 살펴볼 필요 없이 인자점수 크기만으로 판단할 수 있다.


💡 인자분석 - 인자수 결정, 회전 과정

인자수 결정 방법

  • 적절한 몇 개의 인자수를 결정하고 각각의 인자수로 분석한 결과를 비교 확인한 다음 자신있게 최선이라 생각하는 것을 선택

    • 수리적 타당성도 필요

    • ex. 일반지능 / 문과지능, 이과지능 / 언어지능, 계산지능, 암기지능

회전 과정

  • 회전 과정 동안 본래의 각 변수가 가능한 적은 수의 인자하고만 관련되도록 자동적으로 계산

    • 본래의 인자축과는 별도로, 똑같은 중심을 지나면서 '일부의 변수하고만 상관하는 새로운 축' 생성하고 회전시키는 것

    • 직각회전
      - 인자끼리 서로 직각, 즉 설명이 독립적으로 '서로 상관하지 않도록' 회전 과정 진행

      • 가로축과 세로축이 '인자 간 상관의 강도'
      • 다중회귀분석 등에 사용할 때 다중공선성을 고려
    • 사각회전
      - '서로 상관하든 안 하든' 별도로 움직이게 하는 회전 과정 진행

      • 현실에서 존재하는 인자가 '반드시 서로 상관하지 않는다'는 가정의 비합리성을 반영

📑 군집분석

  • 군집 : 질적으로 다른 그룹

  • 군집분석 : 여러 변수에서 군집을 나누는 분석방법

📑 군집분석 계산방법

1. 계층적 군집분석

  • 계층적 군집분석의 종류

    • 응집형 : 수형도의 가지에서 '유사한 것끼리 모아가는' 방법
    • 분기형 : '가장 분명한 차이를 보이는 것들을 찾아 분할을 반복하는' 방법
  • 군집분류 방법

    • 유사성

      : 각 변수의 차이를 제곱하여 모두 더하고 √를 씌우는 방식으로 변수들간의 거리(유사성)을 구한다

    • 표준화

      • 세로축과 가로축의 단위를 맞추고, '세로축 차이'와 '가로축 차이'가 본래의 값의 크기에 관계없이 동일하게 취급되게 하기 위한 방법
      • 표준편차(SD)의 활용하여 각 변수 축에서의 차이를 '그 변수의 표준편차가 얼마인지'로 축의 규모를 보정한다
  • 계층적 군집분석은 계산량이 많기 때문에 오늘날 많이 사용되지 않는다

2. 비계층적 군집분석

  • K-means

    • k-means : 'k개의 평균값'이라는 데이터의 중심점에서 떨어진 거리를 생각함으로써 분류 대상이 어떤 군집에 속하는지 밝혀내는 분석방법
    • k : 최종적으로 분류하고 싶은 군집의 수 (분석가가 설정)
    • 중심점 : 모든 축에서 평균값이 되는 점
  • K-means 군집분석 방법

    1. 임의로 모든 점을 k개의 군집으로 분류하고 중심점을 구함
    2. k개의 중심점 중에서 어디부터의 거리가 가장 짧은가 하는 기준으로 모든 점을 새롭게 재분류
    3. 군집 분류에 기초하여 다시 평균값을 계산하고 중심점을 구함
    4. 2와 3을 반복
    5. 중심도, 분류도 변하지 않게 되면 '좋은 군집 결과'
  • 분류한 군집 해석 ★★★

    • 분류한 군집의 이름을 설정하는 작업이 중요

      이미지를 떠올리지 못하면 각각의 군집에 어떠한 방법을 쓰면 
       좋은지 의사결정하는 데도 도움이 되지 않음
    • 평균값 자체가 아닌, 평균값이 다른 군집에 비해 큰지 작은지 상대적인 비교가 중요

    • 군집간의 차이를 파악할 때, 분산분석이나 카이제곱검정 등을 사용하여 '군집 간 평균값의 차이가 우연한 범위라고 할 수 있는가'라는 판단도 함

      ✨ Tip : '특징이 있는 듯 없는 듯한 군집'은 해당 인원수가 많은 경우에는 '일반', 반대로 적은 경우에는 '기타'라는 이름을 붙일 때가 많다

  • k-means의 한계

    • 군집수의 설정을 바꾸기만 해도 다른 결과
    • 변수의 표준화를 할지말지, 어떤 방법으로 표준화를 할지에 따라서도 달라지는 결과
    • 중심에서 가장 가까운 거리의 군집으로 분류한다는 것은 암묵적으로 모든 군집이 같은 반지름의 원형이라는 것을 가정하는 점

👩🏻‍💻 최종적으로 해야 하는 분석

  • 군집분석 : 서로 상관하는 여러 변수가 축소되고 알기 쉬운 질적변수를 얻음

  • 회귀분석 : 군집분석으로 얻은 질적변수를 설명변수로 사용하여 다중회귀분석이나 로지스틱 회귀분석

    ⏩ 군집분석에 사용한 축소 전의 (서로 상관이 있는) 변수를 그대로 전부 설명변수로 삼을 때보다도 알기 쉬운 분석 결과를 얻을 수 있다!

군집분석을 통해 변수들을 축소하고 분류하고 이름을 붙인 뒤, 그것을 바탕으로 다중회귀분석이나 로지스틱 회귀분석 등을 사용하여 아웃컴과 설명변수의 관련성을 어떻게 발견할 것인지를 고민해야 함 !!!

profile
Data Analyst

0개의 댓글