앙상블의 사전적인 의미는 '전체적인 어울림 혹은 통일'이다. 이를 머신러닝에 빗대어 본다면 하나의 알고리즘으로 여러개의 모델을 학습하는 것이라 할 수 있다.Decision Tree(결정 트리) 알고리즘이 가장 대표적이라고 할 수 있겠다.(아래의 그림과 같은 것을 결정트
XGBoost는 앙상블 부스팅 기법의 한 종류이며 이전 모델에서의 loss를 gradient descent를 이용하여 보완해나가는 방식으로 개선(?)된다.주로 이런 순서로 사용한다.boosterdefault = 'gbtree' : 어떤 종류의 부스트를 쓸껀지 gbtr
딥러닝을 하다보니 이런일이 생기게 되었다.이렇게 train 중에 점수가 좋게 나온녀석이 있다면 저장해두고 싶어진 것이다.여러가지 방법이 있지만 내가 사용한 방법과 pytorch 공식문서의 권장 사항을 설명하고자 한다.필자는 코랩을 사용하였기 때문에 model을 파일로
폐CT 이미지를 가지고 코로나 발병을 예측하는 모델을 만들게 되었다.제약사항은 다음과 같았다.pretrained 된 모델을 사용할 수 없다는 조건외부 데이터셋을 사용할 수 없다는 조건이미지 데이터의 수는 550개 남짓이었다.그래서 한정된 데이터를 늘리고자 하였고 다음과
원래 데이터의 일부를 한번 살펴보자.이런식으로 특수문자, ..., 띄워쓰기가 제대로 되어있지 않다.그럼 이제 전처리를 해보자\[],?!{}() 이런 녀석들을 한번에 싹 지워주는 역할을 해준다.column 적용은 다음과 같이 하자py-hanspellpy-hanspell은