데이터 분석의 흐름
데이터 분석단계
회귀분석 정의
회귀분석은 종속변수와 독립변수간의 관계를 모델링하고, 이를 통해 예측하거나 통찰을 얻는 통계적 기법이다.
종속변수 : 예측하고자하는 변수 Y값
독립변수 : 종속변수에 영향미치는 변수 X값
숫자를 예측하는 회귀분석에서, 선형회귀에서만 평가되는 지표가 1개 더 있어요. 그건 바로 R Square 지표입니다. R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도를 뜻합니다.
어떤 값을 “예측”한다는건 어림짐작으로 평균값보단 예측을 잘해야한다는 것을 의미해요. 예컨대, 키의 평균 값이 176.9인데 이 값으로 모두 예측한 것보다는 잘해야겠죠?
단순선형회귀 vs 다항회귀

☑️ 수치형 데이터 vs 범주형 데이터

연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터
ex) 키, 몸무게
이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터
ex) 주사위 눈, 나이
순서형 자료: 자료의 순서 의미가 있음
ex) 학점,등급
명목형 자료: 자료의 순서 의미가 없음
ex) 혈액형, 성별
☑️ 범주형 데이터 실습
📌 머신이는 데이터 선형회귀를 훈련 시켰지만 성능이 별로 좋지 않다는 것을 알게 되었습니다. 그래서 성별과 같은 다른 데이터를 사용하고 싶어졌습니다. 그런데 문제는 성별데이터는 문자형이여서 숫자로 표현할 방법이 필요해졌습니다.☑️ 선형 회귀의 가정
머신러닝모델 중에 선형회귀는 이해하기 쉽고 방법도 쉬운 장점이 있지만 말 그대로 X-Y변수간의 선형적 관계가 좋아아만 좋은 성능을 냅니다. 선형회귀의 가정에 대해서 알아볼게요!


