참고 사이트Ada Boost(Adaptive boost)는 Boost 기법 중 가장 기본이 되는 것으로 다른 발전된 Boost 기법들의 이해의 기반이 된다.Ada Boost에는 stump라는 결정(decision)의 단위가 되는 트리(depth가 1인 decision
참고자료Imgur학습 데이터(training data)가 많이 쌓일 수록 실제 test data와 결과가 유사하게 나와야 하는데, 실제 돌려보니 그렇지 못하고 학습 데이터에 대한 조건부 확률(확률 분포)과 테스트 데이터에 대한 조건부 확률(확률 분포)이 다르게 나온다.
참조1참조2외출 활동이 좋은지 좋지 않은지 분류하는 머신러닝 모델을 만들고자 한다. 이를 위해 우리는 날씨 데이터를 확보했다.지금 현재의 풍속, 온도, 습도, 미세먼지, 강수량,... 정말 많은 요인들이 영향을 미칠 것이다. 통계학에서는 이를 독립 변수라 하고, 데이터
현업에서 데이터가 주어졌을 때, 이 데이터를 가공하고 분석해서 목표 달성을 위한 의사 결정에 도움이 되는 다양한 정보들을 찾아낼 수가 있다.본 문서는 이러한 정보를 찾기 위해서 처음부터 어떻게 하면 되는지 쇼핑몰 고객 주문 데이터를 예로 들어 설명한다.쇼핑몰 고객 주문
Kaggle, Google BigQuery, 기타 big data 공개된 곳으로부터 분석할 데이터를 가져온다.Kaggle의 경우는 회원 가입하고 kaggle package를 설치한 다음 kaggle API key를 받아와야 한다.Google BigQuery는 Googl
본 글은 여기를 참조하였다. 참조한 블로그의 설명은 최초 유튜브 동영상 강좌인 여기를 베이스로 하여 작성되었다.그러나 참고 자료는 데이터만 차용했을 뿐 본 글 내용의 대부분은 Gradient Boost를 직접 구현하여 그 중간 과정의 결과들을 취합하여 설명을 붙인 것으