[멋쟁이 사자처럼 AIS7][0501:0502]

HI,HYEN·2022년 11월 1일

멋쟁이 사자처럼 AIS7

목록 보기

12/33

0501

.tolist()
-> 인덱스 값이 같아야 값을 할당했을 때 바로 적용이 되는데
인덱스 값이 다를 경우 tolist()로 인덱스 값을 무시하고 순서대로 값을 기재할 수 있음

정규화 => 숫자 스케일의 차이가 클 때,
값을 정규분포로 만들어 주거나 스케일 값을 변경해 주는 것

이상치 => 이상치를 제거하거나 대체

대체 => 결측치를 다른 값으로 대체

인코딩 => 호칭, 탑승지의 위치, 문자 데이터를 수치화,
너무 범위가 큰 수치 데이터를 구간화 해서 인코딩 할 수도 있음

(실제값 == 예측값).mean()
=> 평균(올바르게 예측한 샘플 개수 / 전체 샘플 개수)
=> Accuracy : 정확도

0502

✔️ 수치데이터만 가져오고 변환한 이유?
-> 머신러닝 내부에서 연산을 할 수 없기 때문에
-> 머신러닝 알고리즘에서 bool값은 수치데이터로 취급
(int타입으로 변경하지 않아도 됨)

test 에 있는 데이터의 행은 삭제를 하면 안 됨.
-> 삭제를 하면 예측해야 하는 문제인데 예측을 못 하기 때문에

✔️ y_test가 없을 때 accuracy score 구하는 방법?
-> hold-out-validation, cross_validation을 사용해서 구할 수 있음.
hold-out-validation (valid 가 한 조각)
cross_validation(valid 가 여러 조각)

✔️ r2_score는 언제쓰나?
-> R2 Score는 회귀 모델이 얼마나 '설명력' 이 있느냐를 의미.
-> '실제 값의 분산 대비 예측값의 분산 비율' 로 요약 될 수 있으며, 예측 모델과 실제 모델이 얼마나 강한 상관관계(Correlated)를 가지는가로 설명력을 요약할 수도 있음.
-> 회귀 모델을 평가할 때 사용하는 평가지표.
-> R2 Score는 1에 가까울 수록 좋음.

피처엔지니어링도 많이 할수록 꼭 점수가 오른다는 보장은 없다.
오히려 피처엔지니어링을 많이 했을 때 점수가 더 낮아질 수 있다.
피처엔지니어링을 제대로 도메인지식, EDA를 통해서 생존여부에 중요한 역할을 하는 변수를 찾아서 전처리 해주면 성능이 더 나아질 수 있다.

✔️ kaggle에서 하루 제출 횟수 제한하는 이유?
서버무리, 점수조작, 찍어 맞출 수도 있겠죠. 어뷰징 때문에 API등 도 제공하고 있기 때문에 너무 많이 제출하면 어뷰징(잘못된 사용)
어뷰징 사례 : 광고에서 어뷰징 AD Fraud 광고사기, 게임사기 다양한 분야에 어뷰징이 있을 수 있음

✔️ 로그 그래프에서 이진로그, 자연로그, 상용로그의 공통점?
-> (1,0)을 지남
-> 기울기가 작아짐
-> x는 0보다 큰 값
-> x가 1보다 작을 때, 마이너스 무한대로 수렴

엔트로피가 0은 다른 값이 섞여있지 않음을 의미
그래서 지니 불순도도 다른 값이 얼마나 섞여있는지를 보고
지니 불순도도 0이면 섞여 있지 않음을 의미

✔️ 지니불순도와 엔트로피를 사용하는 목적?
-> 분류를 했을 때 True, False로 완전히 나뉘지 않는데
이때 값이 얼마나 섞여있는지 수치로 확인하기 위함이고,
0에 가까울수록 다른 값이 섞여있지 않은 상태
-> 분류의 분할에 대한 품질을 평가하고 싶을 때 사용
(얼마나 잘 나뉘었냐)

✔️ 지니불순도와 엔트로피를 어떻게 사용하나?
0에 가까운지를 본다. 지니 불순도는 0.5일 때 가장 값이 많이 섞여있는 상태이며, 엔트로피는 np.log2(클래스 개수) 값과 같을 때가 가장 많이 섞여있는 상태로 보면 된다. 0에 가까운지를 보면 되고, 트리를 보게 되면 트리 아래로 갈 수록 0에 가까워진다. 지니 불순도나 엔트로피가 0이 되면 트리 분할을 멈춘다.

HI,HYEN

Today I Learn

이전 포스트

[멋쟁이 사자차럼 AIS7][0403:0404]

다음 포스트

[멋쟁이 사자처럼 AIS7][0501:0502]