📖 이번 포스팅에서는 Boosting 계열의 알고리즘 중에서 GBM(Gradient Boosting Machines) 알고리즘에 기반하여 만들어진 CatBoost 알고리즘에 대해 알아보려고 합니다. CatBoost는 2017년 논문에서 소개되었으며 현재까지 현업에
📖 앙상블 학습의 유형은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등이 있습니다. 이번 포스팅에서는 부스팅 알고리즘 중 AdaBoost와 GBM에 대해 알아보고자 합니다. 우선 부스팅의 원리부터 차근차근 알아봅시
📖 전체집단을 모두 조사하는것은 현실적으로 불가능함으로 적절한 표본집단을 지정하여 이 표본집단에서 평균, 표준편차와 같은 통계량을 구한 뒤 이를 통해 모집단의 모수를 추정합니다. 이 때 널리 쓰이는 통계적 검정 방법들을 딱 한 번의 정리를 통해 이해를 돕겠습니다.사람
📖 시계열 데이터를 계층적, 분할적 군집화하기 위한 방법을 간단하게 코드 위주로 각각 알아봅시다. 군집화 가능한 시계열 데이터의 형태로 변환 기존 데이터는 각 컬럼이 각 집단의 시계열 정보를 가지고 있습니다. 이를 전치시켜 각 로우데이터가 각 집단 별 시계열 데이터
주성분 분석(PCA, Principal Component Analysis)란? 기본적으로 PCA는 선형 차원 감소 기법 (알고리즘)입니다. 고차원의 데이터일수록 표본의 밀도는 떨어지고, 높은 과대적합 위험과 계산 비용, 낮은 모델 성능 등 소위 차원의 저주 문제가 뒤