Optimization

Batwan·2024년 6월 28일

Boostcamp-AI

목록 보기

10/13

Optimization

Generaliztion

Under-fitting vs over-fitting

Cross validation

Bias-variance tradeoff

Bootstrapping

Bagging and boosting

Generaliztion

일반화 성능을 높이기 위한 것

Generaliztion성능은 Test error와 Train error의 차이를 말하는 것
Generaliztion성능이 좋다 : 이 학습데이터와 테스트데이터의 차이가 별로 없다.
학습데이터의 성능이 안 좋으면 Generaliztion성능이 좋다고 해도 테스트 데이터의 성능이 좋다고 할 수 없다.

Under-fitting vs over-fitting

Under-fitting : 학습데이터를 제대로 학습하지 못하여, 학습데이터와 테스트데이터 모두에서 성능이 낮은 경우
Overffiting : 학습데이터에 잘 작동하지만, 테스트데이터에 잘 작동하지 않는 것

Cross validation

데이터셋을 여러 개의 부분으로 나누어 모델을 여러 번 학습 및 검증하여, 모델의 성능을 안정적으로 평가할 수 있도록 하는 것
k-Fold Cross Validation(k-겹 교차 검증) : 대표적인 교차 검증 방법

Bias-variance tradeoff

Bias-variance : 출력이 얼마나 일관적으로 나오는지 확인하는 것
Low Bias-High variance: 매우 복잡한 모델로, 훈련 데이터에 과적합되고 새로운 데이터에 대해 일반화 성능이 떨어짐.
High Bias-Low Variance: 매우 단순한 모델로, 훈련 데이터와 새로운 데이터 모두에 대해 잘 맞지 않음.
Bias-variance tradeoff : 모델의 복잡도가 증가하면 바이어스는 줄어들지만 분산은 증가하고, 반대로 모델의 복잡도가 감소하면 분산은 줄어들지만 바이어스는 증가한다. 최적의 모델은 바이어스와 분산 간의 균형을 맞추는 것

Bootstrapping : 학습데이터에 노이즈가 있다고 할 때

원본 데이터셋에서 여러 번 샘플을 추출하는 방법 각 샘플은 원본 데이터셋과 동일한 크기를 가지지만, 중복된 데이터 포인트를 포함할 수 있다. 이렇게 생성된 여러 부트스트랩 샘플을 사용하여 통계적 추정치를 계산하고, 결과의 변동성을 평가

Bagging and Boosting

Bagging : 여러 부트스트랩 샘플을 생성하고 각각에 대해 모델을 학습한 후, 이들의 예측을 결합하여 최종 예측을 도출하는 방법

Boosting : 정확도가 낮은 데이터를 잘 동작하는 모델을 맞춰 합치는 것. 이전 모델의 예측 오류를 줄이는 데 초점을 맞춤