
2024.10.19
통계적 회귀 : 통계학 관점에서 회귀분석 이야기


데이터는 한 이커머스회사의 고객정보이다.
Avg.Session Length는 한번 접속 시 평균 어느 정도의 시간을 사용하는지에 대한 데이터Time on App: 폰 앱으로 접속했을 때 유지 시간 (분)Time on Website: 웹사이트로 접속했을 때 유지 시간 (분)Length of Membership: 회원 자격 유지 기간 (연)

Index(['Email', 'Address', 'Avatar', 'Avg. Session Length', 'Time on App', 'Time on Website', 'Length of Membership', 'Yearly Amount Spent'], dtype='object')


기본적인 컬럼에 속한 데이터의 단위는 1~10의 자리 값들이지만, Yearly Amount Spent컬럼의 단위는 100 이상의 자리 값들이므로 해당 컬럼만 빼고, 그래프 표현




Length of Membership과Yearly Amount Spent두 가지 컬럼 제외하고는 별다른 상관관계를 찾을 수 없다.




ChatGPT 설명
이 결과는 OLS(Ordinary Least Squares, 최소자승법) 회귀 분석의 출력입니다. 여기서 각각의 항목이 무엇을 의미하는지 설명드리겠습니다.
상단 정보
Dep. Variable (종속 변수): Yearly Amount Spent
R-squared (uncentered): 0.970
0.970은 매우 높은 값을 의미하며, 모델이 변동성의 약 97%를 설명함을 나타냅니다.Adj. R-squared (uncentered): 0.970
0.970로 높습니다.Model: OLS
OLS(Ordinary Least Squares) 회귀입니다.Method: Least Squares
F-statistic: 1.617e+04
*전체 회귀 모델의 유의성을 평가하는 F 통계량입니다. 값이 매우 크며, 모델이 유의미하다는 것을 의미합니다.
Prob (F-statistic): 0.00
Date/Time: Sat, 19 Oct 2024, 22:54:39
관측치 정보
No. Observations: 500
Df Residuals: 499
499입니다.Df Model: 1
1입니다.회귀 계수 결과
coef (계수): 135.6117
Length of Membership이 1 단위 증가할 때, Yearly Amount Spent는 평균적으로 135.61 단위 증가함을 나타냅니다.std err (표준 오차): 1.067
t (t-값): 127.145
P>|t| (p-값): 0.000
Length of Membership이 Yearly Amount Spent에 유의미한 영향을 미친다는 것을 의미합니다. [0.025, 0.975] (신뢰 구간): [133.516, 137.707]
Omnibus: 1.408
Prob(Omnibus): 0.494
0.494로 정규성을 기각할 수 없습니다. 즉, 잔차가 정규분포를 따른다고 볼 수 있습니다. Jarque-Bera (JB): 1.472
Prob(JB): 0.479
Skew (왜도): 0.125
Kurtosis (첨도): 2.909
Durbin-Watson: 1.975
Cond. No. (조건수): 1.00
Notes (참고 사항)
R-squared : 모형 적합도, y의 분산을 각각의 변수들이 약 99.8%로 설명할 수 있음Adj.R-squared : 독립변수가 여러 개 있는 다중회구분석에서 사용Prob.F-Statistic : 회구모형에 대한 통계적 유의미성 검정. 값이 0.05 이하라면 조비단에서도 의미가 있다고 볼 수 있음.
- 회귀모델 그래프


해당 회귀분석 그래프에서
상수항이 없어서 실제 값들과 조금 일치하지 않는 모습이 보인다.
- 즉, x 항에서 행열의 개념으로 보았을 때, 열을 추가해줘야 한다.


- 다시 선형 회귀 진행


