Multiple Linear Regression
다중선형회기모델
두 개 이상의 독립변수를 이용하여 종속변수의 값을 예상할 수 있는 모델을 만든다.
두 개 이상의 feature는 target의 값을 예측할 수 있는 최선의 선을 만들고 이 선은 3차원 공간에서 면을 이룬다. 왜냐하면 공간을 이루고 있는 축이 세 개 이상이기 때문이다.
2개 이상의 feature를 이용하더라도 이 모델은 선형회기 모델로 분류가 된다.
모델을 만들 때에는 한 데이터를 두 개의 데이터로 분류한다. for training and test.
주로 시간 변화에 따라 분류하지만 필요에 의해 다양하해 분류하여 분리할 수 있다.
훈련 데이터로 만든 모델을 시험 데이터셋에 적용하여 얼만큼 정확도가 있는 지 확인하고 오차를 줄이기 위해 모델을 수정한다.
이 때 모델의 성능을 판별할 수 있는 다음과 같은 평가 법이 있다.
mae : mean absolute error. 오차를 절대값으로 표기하여 간단하게 오차를 확인한다.
mse : mean square error.
사용한 코드
.str.split('@', n=1, expand=True)
country 컬럼을 선택합니다.
컬럼의 값과 조건을 비교합니다.
그 결과를 새로운 변수에 할당합니다.
is_venezuela = df['country'] == 'Venezuela'
조건를 충족하는 데이터를 필터링하여 새로운 변수에 저장합니다.
venezuela = df[is_venezuela]
결과를 출력합니다.
venezuela