통계 | #5 실무에서의 회귀분석

소리·2024년 5월 5일
0

분석하는 힘

목록 보기
5/11

📗 빅데이터를 통찰하는 힘 : 실무활용 편

  • 3장 통찰의 왕이 되는 분석방법들

회귀분석

: 원인과 결과가 서로 연속되는 개념으로 이해하는 것
: 양적 설명 변수양적 아웃컴의 관계성
: 최소제곱법을 이용해 얻은 2개의 양적 항목 간의 경향성을 나타내는 직선 (회귀직선)의 수식 (회귀식)

✨ 회귀분석으로 ' 보이지 않는 관계성'의 분석이 가능하다.


  • 잔차제곱합 : 벗어난 값의 제곱합, 이 값이 가장 작아질 때 최량의 회귀직선으로 생각한다.

  • 회귀분석에서는 회귀계수의 표준오차를 생각한다. 회귀계수가 존재한다고 할 때 얼마만큼의 건수, 그리고 어떤 불규칙성이 있는 데이터에 의해 그것을 추정하려고 든다면 도대체 어느 정도의 불규칙성이 나타나겠는가 하는 것이 바로 회귀계수의 표준오차가 갖는 의미다. 174쪽

  • 회귀계수의 표준오차 크기를 생각할 경우 y의 예측값과 실제 값이 평균적으로 어느 정도 벗어나 있는가라는 크기를, x는 어느정도 불규칙한지의 크기에 대한 비율로 상대적인 판단을 할 필요가 있는 것이다 176쪽


다중회귀분석

  • 단순회귀분석 : 설명변수 1, 아웃컴 1 의 관련성을 보기 위한 회귀분석

단일회귀분석은 하나의 설명변수와 하나의 아웃컴 간의 관계성만 분석하면 간과하고 있었던 다른 요인에 의해 결과가 왜곡되는 경우가 종종 생긴다.

이 문제에 대처하기 위해 서브그룹을 해석하는 것인데 개별 관계성 결과를 모두 파악해야 해서 번거롭고, 서브그룹 내 데이터가 적어 오차가 커져버린다. 혹은 그룹 값의 경향성이 모두 제멋대로 일 수 있다.

➡️ 🔍 복수의 설명변수와 아웃컵의 관련성을 한번에 분석하는 다중회귀 분석으로 문제를 해결한다

서브그룹은 x와 y의 관련성을 찾으려고 한다. 성별, 세대, 거주지역 등의 조건이 다르면 방문횟수가 동일하더라도 계약건수가 달라질 수 있다는 사실을 그대로 인정한다. 그래서 완전히 개별적으로 서로 다른 분석을 함으로써 더 정확한 설명변수와 아웃컴 간의 관련성을 찾으려고 한다.

한편 다중회귀분석은 '방문횟수가 동일하더라도 계약건수가 다르다는 문제에 대해 구체적으로 얼마나 달라지는가 하는 값을 추정하고 그 값으로 조정함으로써 정확한 관련성을 찾으려고 한다. 185쪽


회귀분석, z검정, t검정의 결과가 일치하는 방법 186쪽

0과 1로 표현되는이항변수의 형태로 바꿔주면 질적인 설명변수도 양적인 설명변수처럼 회귀분석으로 처리할 수 있다. 단순이든 다중이든 아무 상관없이 적용되는데 여기서 질적인 설명변수를 표현하기 위한 0과 1의 이항변수를 더미변수라고 부른다.
이렇게 되면 Z검정, T검정, 이항변수를 설명변수로 두는 단순회귀분석은 완전히 동일한 성질을 지니고 있다.


다중회귀분석은 어떻게 같을까?
다중회귀분석에서 나타나는 각각의 회귀계수가 다른 더미변수의 값이 같을 때 이 더미변수가 하나 더 증가하면 아웃컴은 몇 개 많은가/적은가 라는 것만 알고 있으면 충분히 해결된다. (기준 카테고리와 기타 카테고리 사이의 차이라는 형태로 다중비교할 때와 동일한 결과가 얻어진다) 194쪽


✨ 다중회귀분석이 현장에서 많이 쓰인다
t검정, z 검정, 단순회귀분석 같은 분석방법을 사용하는 것보다도 업무에서 설명변수의 후보가 대량인 데이터가 있다면 모든 설명변수를 다중회귀분석에 적용하여 p값이 작고 회귀계수가 큰 것을 탐색하는 방식을 압도적으로 많이 선호한다.

로지스틱 회귀분석

: 질적 아웃컴에 대한 관계성을 분석하는 방법
질적 아웃컴에 대해 단순/다중 회귀분석을 구별하지 않으며, 설명변수가 1개이든 여러 개이든 관계없이 기본적으로 로지스틱 회귀분석이라고 부른다.

: True와 False 이항논리로 나타나는 자료를 다루는 회귀분석

로그오즈비

  • 오즈비(odds ratio) : 승산비, 그룹 간의 오즈의 비율

  • 오즈 (odds)는 어떤 사건이 일어날 확률(p)을 사건이 일어나지 않을 확률(1-p)로 나눈 값이다.
    odds는 조사에서 해당자의 비율이 낮은 질적 아웃컴에 대해 그 확률을 좌우할 가능성이 있는 요인을 조사할 때 중요한 의미를 지닌다. 205쪽

예) 경기에서 이길 오즈를 구한다면, 이길 확률을 질 확률로 나누면 된다.

  • 오즈비는 케이스 컨트롤 조사에서 사용한다. 다시 말해 조건이 동일한데도 병에 걸린 사람과 걸리지 않은 사람 사이에 어떤 차이가 있는지 살펴보는 것이 케이스 컨트롤의 취지이다. (꼭 질병이 아니어도 된다) 207쪽

🔍 오즈를 사용해 뺄셈에 의한 '차이'가 아니라 나눗셈에 의한 '비'를 생각하면 케이스와 컨트롤의 비에 다르지 않고 일정해지는, 의미있는 지표가 얻어진다.


  • 로그오즈비 : 오즈비에 로그를 취한 값
    로그오즈비를 사용하면 0과 1의 값만 취하는 이항의 아웃컴이 다중 회귀분석의 양적인 아웃컴과 마찬가지로 마이너스 무한대부터 플러스 무한대까지의 값을 나타내도록 변환할 수 있는 사실을 발견했다.

예를 들어 vip 고객인가(1) 아닌가(0)을 나타낸 아웃컴에 관한 로지스틱 회귀분석에서 남성더미의 회귀변수가 2.00이라면 2.718의 제곱 즉, 7.39라는 오즈비가 구해진다. 따라서 '남성은 여성에 비해 약 7.39배나 아웃컴이 1 되기 쉽다'는 것을 알 수 있다. 또 이결과를 여성더미의 형태로 나타내고 싶다면 1/7.39 의 역수를 계산하여 '여성은 남성에 비해 약 0.14배쯤 vip 고객이 되기 어렵다'는 것을 알 수 있다. 남성더비인 채로 vip 고객이 0이고 일반 고객을 1로 두는 경우에도 마찬가리조 '남성은 여성에 비해 약 0.14배 일반 고객이 되기 어렵다'는 결과를 찾아낼 수 있다. 215쪽


이제껏 설명변수와 아웃컴의 관련성을 분석하는 방법을 확인해보았다.

회귀모형 총정리

질적 설명변수와 아웃컴을 모두 이항변수로 변환하여 '양적 아웃컴은 다중회귀분석, 이항 아웃컴은 로지스틱 회귀분석을 사용한다'는 원칙만 알아두라.

회귀모형 실제 사용법 : input

어떤 설명 변수를 몇 개 정도 사용하여 분석해야 하는가

기본적으로 설명변수가 증가할수록 에측값에서 벗어난 값인 잔차는 작아지지만, 과적합 문제가 발생한다. 본래라면 관게가 없어야 마당한 설명변수로 무리하게 아웃컴의 변동을 설명한다. 그렇다면 새로이 얻어지는 데이터로 회귀식에 적용하면 거꾸로 적합도가 나빠지는 현상이 일어난다.

✨변수선택법 : 의미있는 설명변수만 회귀식에 포함되도록 하는 것

  • 전진선택법 : 설명변수 모두에 대해 단순회귀분석을 하고 p값이 가장 작은 설명변수부터 그 외의 설명변수와 하나씩 조합해서 2개의 설명변수를 포함하는 다중회귀모형들을 분석한다. 그리고 여러 다중회귀모형 중에서 두 번째 추가되는 설명변수의 회귀계수에 대응하는 p값이 가장 작은 설명 변수를 채택하고 이 변수를 두 번째 회귀모형에 추가한다. 이 과정을 반복한다.

  • 후진제거법 : 모든 설명변수를 포함하는 회귀식을 계산하고 대응하는 p값의 가장 큰 설명변수부터 차례대로 제외한 다음 모든 설명변수가 일정기준 이내가 되면 종료하는 방식

  • 단계별 선택법 : 전진선택법과 마찬가지로 p값이 작은 설명변수를 하나씩 추가한다. 일정 기분 이상의 p값이 나온 설명변수가 발생하면 전ㄷ 단계에서 추가되었다고 해도 제거하는 과정을 사이에 둔다.

  • AIC : 설명변수의 수에 비해 적합도가 좋은지 나쁜지의 지표

  • 교차타당도법 : 회귀식을 구하는 분석용 데이터와 그 적합도를 시험하는 데이터로 나누는 방식을 취한다.

➡️ 계산량 관점에서는 그리 추천하는 방법은 아니다.

  • 다중공선성 : 회귀분석에서 독립변수들 간에 강한 선형 관계가 존재하는 경우로, 관련성이 엄청 간한 설명변수가 포함되어 있으면 회귀계수의 추정이 불안정해지고 의미도 모르는 결과가 얻어지기도 한다. 그래서 주의가 필요하다.

회귀모형 실제 사용법 : output

나온 결과에서 어떤 의미를 찾아내고 어떻게 해석하여 어떤 행동을 취하는가

p-값이 5% 미만인 것 중에 중요성이 높은 것은 아웃컴에 가장 큰 변동을 준다. 그러나 가장 중요한 부분이라고 말할 수 는 없다. '회귀계수는 설명변수가 1 증가할 때마다'라는 정보를 나타내는데 '설명변수를 얼마만큼 움직이게 하는 것인가'에 관한 정보와 맞춰보지 않으면 어느 정도 영향을 미치는지 알 수 없다.'

즉, 회귀계수의 값만으로는 설명변수의 중요성을 판단할 수 없다.

그러므로 추가적으로 '얼마만큼 설명변수를 움직이게 할 여지가 있고 또 실제 설명변수를 얼마만큼 움직이게 하는 방법이 있는가'를 고려해야만 한다. 242쪽


예시로
구매 금액을 아웃컴으로 하는 다중회귀분석의 결과에서 남성보다 여성이, 나이가 많은 편이, DM 발송건수가 많은 쪽이 구매금액이 높은 경향을 보이고 있다. 가 이 결과에서 여성의 매출이 높다는 앞의 정보에서 '여성에게 DM을 발송한다'는 아이디어가 떠오르는 사람도 있을 것이다. 그러나 그 방법이 현시점에서 올바르다고 단정할 수 없다.

위 회귀분석의 결과는 '다른 설명변수가 같다고 하면 이 설명변수가 1크면..'의 관련성을 나타내기 때문이다. 즉 '나이가 성별이 같다면 DM을 발송하는 것이 낫다.', '나이와 DM 발송건수가 같다면 여성의 구매금액이 높다'라는 정보를 제시하고 있으나 '여성에게 DM을 발송하는 것이 좋다는 말은 단 한마디도 없으며, 완전히 정반대의 사태가 벌어질 수 도 있다 244쪽

DM을 여성에게 보내야 하는 사실이 중요하다면 남성과 여성 사이에서 DM과 구매금액의 관련성이 어떻게 다른가 하는 완전한 다른 관점으로 분석해야많 한다.

변화를 주기 어려운 설명변수와 쉬운 설명변수가 둘다 존재하는 경우 '변화를 주기 쉬운 설명변수 X 주기 어려운 설명변수' 같은 상호작용을 검토하면 '누구에게 이 방법을 써야 하는지'가 명백해진다. 247쪽


조정하고 임의화 비교실험으로 검정한다

임의화 비교실험은 데이터를 수집하는 시점에 '조정해야 할지도 모르는 다른 변수'를 그룹 사이에서 확률적으로 전부 균등하게 만들어준다. 해석 분석방법도 단순하고 p값이나 신뢰구간까지도 이해하고 있으면 결과를 쉽게 해석할 수 있다.

결점이 있다면 단 한 번의 실험으로 검정할 수 있는 것은 하나의 설명변수가 아웃컴에 미치는 효과뿐이며, 또 데이터를 수집하는데 시간이 걸린다는 것이다.

✨어차피 실험해야 한다면 유망할 듯한 아이디어부터 한 다음 임의화 비교실험을 통해 효과가 실증되었다면 되도록 빠르게 전면적으로 실시하는 편이 더 큰 이익을 창출할 수 있다.

profile
데이터로 경로를 탐색합니다.

0개의 댓글