범주형
: 자료의 순서가 의미 없는 데이터
e.g) 성별 색깔
: 자료의 순서에 의미가 있는 데이터
e.g) 만족도 성적
수치형
: 두 개의 값이 무한한 개수로 나누어진 데이터
소수점 존재
: 두 개의 값이 유한한 개수로 나누어진 데이터
소수점 존재 X
변주형 변수를 인코딩시, 정보 손실이 일어난다.
만약 변수가 서울 경기 강원 충북 등 다양한 것을 숫자로 치환한다면, 그 지역이 가지고 있는 특성이 있을 것이다.
그에 대한 y를 예측할 때 정보 손실이 발생하는 것이다.
(하지만 그 특성이 어떤 특성인지 우리는 알지 못한다.)
.coef_
.intercept_
오차항은 다루지 않는다.
사용 시 주의해야 할 점
- 값은 독립 변수가 추가될 때마다 증가하는 경향이 있다.
- 가 높다고 해서 반드시 좋은 모델은 아니며, 다른 평가 지표와 함께 고려해야 한다.