상대경로
: 현재 경로를 기준으로 하는 경로
(ex. './'현재 경로를 의미, '../'상위 경로를 의미)
절대경로
: 전체 경로를 다 지정하는 경로
(ex. 윈도우 'C:' 부터 시작하는 경로)
np.lop1p(A) == np.log(A + 1)
-> 1을 더해주는 이유는 1보다 작은 값에서 음수를 갖기 때문에
가장 작은 값인 1을 더해서 음수가 나오지 않게 하기 위함
-> 데이터에 따라 치우치고(skewed) 뾰족한 분포가 정규분포에 가까워지기도 함
-> log를 취한 값을 사용하게 되면 이상치에도 덜 민감
np.exp : 지수함수
-> np.log로 로그를 취했던 값을 다시 원래의 값으로 복원할 수 있음
=> A == np.expm1(np.log1p(A))
log를 취할 때는 1을 더하고 로그를 취했는데 지수함수를 적용할 때는 반대의 순서대로 복원해야 순서가 맞습니다.
np.exp로 지수함수를 적용하고 -1 을 해주어야 로그를 취했던 순서를 복원해 주게 됩니다.
np.expm1은 지수함수를 적용하고 -1을 해주는 순서로 되어있습니다.
❗모델 학습과정에서 log1p를 적용해줬기 때문에 답안을 제출할 때 np.expm1(y_predict) 를 적용❗
결측치
: 피처가 적절한 값을 찾지 못하고 무의미한 값을 가지는 경우
-> 전처리를 해줘야함
이상치
: 피처에서 일반적인 값의 분포에서 벗어나는 경우
-> 제거하거나 적절하게 변환
희소값
: Categorical Feature에서 Frequency가 낮은 값
-> 결측치 처리
-> 묶어주기('기타' 등)
✔️ 변수의 분포가 편향 되었다?
-> 왜도가 높음
-> 한쪽으로 치우쳐 있음
-> 정규분포와 거리가 멂
-> 데이터 불균형
✔️ 이상치가 학습을 방해?
-> 이상치까지 학습되어 과대적합의 우려가 있음
-> 이상치로 인해 일반화가 어려워짐
-> 예측 정확도가 낮아짐