통계 | #6 비즈니스에서 군집분석과 인자분석이 어떻게 쓰이는가

소리·2024년 5월 7일
0

분석하는 힘

목록 보기
6/11

📗 빅데이터를 통찰하는 힘 : 실무활용 편

  • 4장 데이터의 배후를 파악한다 - 인자분석과 군집분석

상관관계가 존재하는 설명변수를 함께 회귀모형에 포함시키는 것은 결코 바람직하다고 볼 수 없다. 서로 강한 상환관계에 있는 질문항목을 모두 설명 변수로 채택하고 '다른 질문 항목의 점수가 같을 때~'의 관련성을 보면 본질을 외면한 결과가 얻어질 위험성이 있다. 254쪽

이러한 경우 ✨ 다중공선성 대처방법

1) 상관이 강한 다수의 항목에서 대표적인 일부 항목만 골라 설명변수로 채택
2) 상관이 강한 항목끼리 합산하여 하나의 설명변수로 채택




❓ 물리적으로 보거나 접촉할 수 없는 개념을 어떻게 측정할까? 일반 지능처럼 현실적으로 측정할 수 있는 값을 좌우하는, 보지도 만지지도 못하는 무언가를 **`인자`**라고 한다.

인자는 거듭된 개량으로 수많은 '보지도 만지지도 못하는 인자'를 측정가능하게 만들었다.

✨ 비즈니스와 관련하여 얻어지는 설문조사 결과나 행동로그 데이터에도 이런 지혜를 응용하면 좋다.

어떤 상품/브랜드에 무슨 의식을 지니고 있는가, 어느 매장에서 무엇을 사고 있는가 같은 개별항복으로만 한정될지 모르지만 이것을 현실로 표출시킨 데이터와 그 배후에 있는 인자로 생각하고 변수를 축소하면 다중공선성이 해결될 뿐만 아니라 그 밖에도 여러가지 사실을 파악할 수 있다.

설문조사에서 '이 업계에서 브랜드 이미지는 어떤 이자에서 포착할 수 있는가, 이 매장의 상품을 구매함으로써 알 수 있는 라이프스타일에는 어떠한 인자가 있는가' 따위의 정보에 접할 수 있게 되는 것이다. 260쪽


인자분석

  • 개념 : 상호연관된 여러 개의 변수들 간의 내부적 상호관계를 변수들 간의 내재하는 소수의 잠재적인 관측 불가능한 인자를 추출해내는 다변량분석법.

  • 인자점수 : 인자 분석에 의해 얻어진 눈금으로 판단하는 값, 가급적 본래의 변수와 강하게 상관관계에 있는 지표로 추정하는 것을 인자점수라고 이해해도 무방 265쪽

✨인자는 '최선이라 생각하는 수'로 정한다. 인자를 분서갈 때 인자수를 분석자가 자유롭게 설정할 수 있고, 설정한 인자수에 의해 결과가 크게 바뀌기도 한다.

인자수를 몇 개로 잡는 것이 좋을까?
'자신이 최선이라 생각하는 수'의 기준을 먼저 생각할 필요가 있다. 적절한 몇 개의 인수를 결정하고 각각의 인자 수로 분석한 결과를 비교 확인한 다음 자신있게 최선이라 생각하는 것을 선택해야만 한다. 아울러 더욱 분명한 판단을 위해 수리적인 타당성도 꼭 확인하는 것이 인자분석을 할 떄 반드시 필요한 과정이다. 269쪽


  • 회전 : 두 가지 인자 이상의 상태를 생각할 때 결과를 알기 쉽도록 하기 위해 회전이라 불리는 과정을 거치기도 한다. 회전에 의해 결과가 알기 쉬워지는 까닭은 그 과정을 거치는 동안 본래의 각 변수가 가능한 적은 수의 인자하고만 관련되도록 자동적으로 계산해주기 때문이다.\

  • 회전 방법 : 직각회전과 사각회전
    직각 회전은 인자끼지 서로 직각, 즉 설명이 독립적으로 '서로 상관하지 않도록' 회전과정을 진행한다.
    사각 회전이란 '서로 상관하든 안 하든' 별도로 움직이게 한다.

실제 사용할 때 '자신이나 보고해야 할 상대가 최선이라 생각하는 것'을 고르는 게 낫다. 275쪽


군집분석

  • 개념 : 시각화만 할 수 있다면 인간의 눈과 직감만으로도 가능한 그룹 분류를 설령 시각화할 수 없는 경우라도 자동적으로 그룹 분류를 할 수 있게 만드는 분석방법

계층적 군집분석은 분류해야할 대상이 증가할 수 록 생각해야 할 경우의 수도 폭발적으로 늘며 당연히 게산량도 엄청날 수 밖에 없다. 이러한 이유로 ✨오늘날에는 비계층적 군집분석이 주류다. 288쪽
대표적으로 k- means 방법이 있다. 이는 k개의 군집으로 나누고 분류와 계산을 반복하는 것이다.

🔍 k-means의 한계

마케팅에서 '유사성 높은 집단끼리 시장을 분류하여 파악하고 그에 걸맞는 각각의 전략을 짠다'는 시장 세분화의 방법에 군집분석이 자주 사용된다.

1) 이 과정에서 군집분석 결과가 유일학 절대적인 분류방법이라고 말하는 것을 옳지 않다. 군집 수의 설정을 바꾸기만 해도 전혀 다른 결과가 나오는 경우가 발생한다.

2) 또 다른 한계로는 중심에서 가장 가까운 거리의 군집으로 분류한다는 것은 암묵적으로 모든 군집이 같은 반지름의 원형이라는 것을 가정하는 점에도 주의했으면 한다. 302쪽


✨ 다중회귀분석이나 로지스틱 회귀분석과 병용할 것을 권장

'시장을 파악한다'는 것뿐만 아니라 이처럼 군집분석을 하고 이름을 붙이기만 해도 목적을 달성할 가능성이 높아진다.

그러나 거기서 분석을 끝마치는 것이 아니라 군집분석을 통해 서로 상관하는 여러 변수가 축소되고 알기 쉬운 질적변수를 얻을 수 있었다. 그 질적변수를 설명변수로 사용하여 다중회귀분석이나 로지스틱 회귀분석을 하면 군집분석에 사용한 축소 이전 변수를 그대로 전부 설명변수로 삼을 때보다도 알기 쉬운 분석결과가 나올 것이다 304쪽

✨인자분석이든 군집분석이든 그 방법은 비즈니스에서 사용할 때 '다수의 변수를 알기 쉽고 다루기 쉬운 형태로 만들 수 있다는 점에 본질을 두고 임해야 한다.

그리고 단지 축소하고 분류하고 이름을 붙이는데에서 끝내지 말고 그것을 바탕으로 다중회귀분석이라 로지스틱 회귀분석 등을 사용하여 아웃컴과 설명변수의 관련성을 어떻게 발견해낼지 끊임없이 궁리할 필요가 있다.

profile
데이터로 경로를 탐색합니다.

0개의 댓글