: 서로 강한 상관관계에 있는 변수들을 모두 설명변수로 채택하고 '다른 변수들의 항목의 점수가 같을 때~'의 관련성을 보면 본질을 외면한 결과가 얻어질 위험성 존재
서로 상관이 있는 것 같은 설명변수에 대해서 회귀계수에 관한 p-값이 가장 작은 것만을 설명변수로 채택
단계별변수선택법을 적용하여 설명변수 채택
서로 상관하는 설명변수를 모두 더하는 것
다수의 변수를 적은 수의 변수로 줄이는 것 (=축소한다)
이러한 문제를 해결하는 분석방법이 '인자분석'
인자 : 현실적으로 측정할 수 있는 값을 좌우하는, 보지도 만지지도 못하는 무언가 (ex. 지능, 리더십, 라이프스타일, 행복감)
인자분석 : 인자를 수학적으로 명백히 밝히는 일
비즈니스 관련 설문조사 결과나 행동 로그 데이터에 활용하면 좋음
[출처: 빅데이터를 지배하는 통계의 힘]
적절한 몇 개의 인자수를 결정하고 각각의 인자수로 분석한 결과를 비교 확인한 다음 자신있게 최선이라 생각하는 것을 선택
수리적 타당성도 필요
ex. 일반지능 / 문과지능, 이과지능 / 언어지능, 계산지능, 암기지능
회전 과정 동안 본래의 각 변수가 가능한 적은 수의 인자하고만 관련되도록 자동적으로 계산
본래의 인자축과는 별도로, 똑같은 중심을 지나면서 '일부의 변수하고만 상관하는 새로운 축' 생성하고 회전시키는 것
직각회전
- 인자끼리 서로 직각, 즉 설명이 독립적으로 '서로 상관하지 않도록' 회전 과정 진행
사각회전
- '서로 상관하든 안 하든' 별도로 움직이게 하는 회전 과정 진행
군집 : 질적으로 다른 그룹
군집분석 : 여러 변수에서 군집을 나누는 분석방법
계층적 군집분석의 종류
군집분류 방법
유사성
: 각 변수의 차이를 제곱하여 모두 더하고 √를 씌우는 방식으로 변수들간의 거리(유사성)을 구한다
표준화
계층적 군집분석은 계산량이 많기 때문에 오늘날 많이 사용되지 않는다
K-means
K-means 군집분석 방법
분류한 군집 해석 ★★★
분류한 군집의 이름을 설정하는 작업이 중요
이미지를 떠올리지 못하면 각각의 군집에 어떠한 방법을 쓰면
좋은지 의사결정하는 데도 도움이 되지 않음
평균값 자체가 아닌, 평균값이 다른 군집에 비해 큰지 작은지 상대적인 비교가 중요
군집간의 차이를 파악할 때, 분산분석이나 카이제곱검정 등을 사용하여 '군집 간 평균값의 차이가 우연한 범위라고 할 수 있는가'라는 판단도 함
✨ Tip : '특징이 있는 듯 없는 듯한 군집'은 해당 인원수가 많은 경우에는 '일반', 반대로 적은 경우에는 '기타'라는 이름을 붙일 때가 많다
k-means의 한계
군집분석 : 서로 상관하는 여러 변수가 축소되고 알기 쉬운 질적변수를 얻음
회귀분석 : 군집분석으로 얻은 질적변수를 설명변수로 사용하여 다중회귀분석이나 로지스틱 회귀분석
⏩ 군집분석에 사용한 축소 전의 (서로 상관이 있는) 변수를 그대로 전부 설명변수로 삼을 때보다도 알기 쉬운 분석 결과를 얻을 수 있다!
군집분석을 통해 변수들을 축소하고 분류하고 이름을 붙인 뒤, 그것을 바탕으로 다중회귀분석이나 로지스틱 회귀분석 등을 사용하여 아웃컴과 설명변수의 관련성을 어떻게 발견할 것인지를 고민해야 함 !!!