1. 회귀의 평가 지표 RMSE(root mean square error) RMSE의 값을 최소화했을 때의 결과가, 오차가 정규분포를 따른다는 전제하에 구할 수 있는 최대가능도방법과 같이지는 등 통계학적으로도 큰 의미를 가지는 평가 지표 하나의 대푯값으로 예측을 실시한다고 가정했을 때 평가지표 RMSE를 최소화하는 예측값이 평균값 MA...
평가지표와 목적함수의 차이점 목적함수는 모델 학습시 최적화되는 함수이다. 모델 학습에서는 목적함수로 사용한 오차가 최소가 되도록 결정 트리의 분기나 선형 모델의 회귀계수 추가 및 갱신 등을 수행한다. 이때 학습이 잘 진행되려면 목적함수는 미분할 수 있어야 한다는 제약이 있다. 최귀 문제에서는 RMSE, 분류 문제에서는 로그 손실을 목적함수로 많이 사용한다...
모델과 특징 모델과 특징의 관계 그레이디언트 부스팅 의사 결정 나무(GBDT) 특징 수치의 크기(범위) 자체에는 의미가 없고, 크고 작은 관계에만 영향이 있다. 결측값이 있어도 그대로 처리할 수 있다. 결정 트리의 내부 반복 작업에 따라 변수 간 상호 작용을 반영한다. 신경망 특징 값의 범위에 영향을 받는다. 결측값을 ...
변수의 조합 여러 개의 변수를 조합함으로써 변수 간 상호작용을 표현하는 특징을 만들 수 있다. 다만, 변수끼리 기계적으로 무작정 조합하면 의미가 없는 변수가 대량으로 생성된다. 이떄는 데이터에 관한 배경 지식을 활용하여 어떤 식의 조합이 의미가 있을지 연구하고 특징을 만들어 나간다. 수치형 변수 X 범주형 변수 범주형 변수의 레벨별로 수치형 변수의 평균이...
모델의 기본 이해 모델이란? 특징(feature)을 입력 데이터로 하여 예측값을 만들어 내는 것 모델 선택 방법 최우선 선택 모델 : GBDT 문제에 따라 2순위로 검토, 다양상 요구 : 신경망, 선형 모델 다양성 요구 : k-최근접 이웃 알고리즘, 랜덤 포레스트(RF)/ERT, RGF, FFM GBDT 개요 : 모델의 사용 편의성과...
모델 평가란? 모델의 일반화 성능을 개선하려면 당연히 그 모델의 일반화 성능을 알 수 있는 방법이 필요하다. 검증 방법 홀드아웃 검증 교차 검증 층화 k-겹 검증 분류 문제에서 폴드마다 포함되는 클래스의 비율을 서로 맞출 때가 자주 있는데 이것을 층화추출(startified sampling)이라고 부른다. 테스트 데이터에 포함되는 각 클래스의 비율은 ...
매개변수 튜닝 하이퍼 파라미터 탐색 방법 수동으로 매개변수 조정 매개변수를 잘 아는 상황에서 하이퍼파라미터를 수동으로 조정하면 착실하게 성능을 올릴 수 있다. 그리고 매개변수를 바꿨을 때의 점수 변화로 데이터를 더 깊게 이해할 수도 있다. 계산 시간은 비교적 짧은 편이지만 작업자가 튜닝하는 시간이 꽤 걸리는 것이 단점이다. 그리드 서...
특징 선택과 중요도 주어진 데이터의 특징과 생성한 특징에는 모델의 성능에 기여하지 않는 것도 많다. 그러한 노이즈가 되는 특징이 많으면 성능은 떨어진다. 또한 특징이 너무 많으면 메모리 부족으로 학습하지 못하거나 계산 시간이 지나치게 소요되기도 한다. 이때 특징 선택(feature selection)을 활용하면 유효 특징은 최대한 남겨둔 채 특징의 수를 줄...
앙상블 과적합 경향 모델의 앙상블 앙상블 모델을 사욜한다면 복잡하고 다소 과적합된 모델을 선택하면 좋다는 의견이 있다. 보통 모델이 복잡할수록 그 모델에서의 평균적인 예측값과 실제값의 편향은 작아지는 한편 예측값의 불안정성, 분산은 커진다. 반대로 모델이 단순할수록 편향은 커지고 분산은 작아진다. 앙상블은 복수의 예측값을 조합함으로써 분산을 줄이는 ...
Keras: Multiple Inputs and Mixed Data 모델을 구성하면서 데이터가 이미지, 텍스트 정보, 메타 데이터(나날짜 및 숫자)가 존재할 수 있다. 이를 쉽게 표현을 하면 아래와 같다. Numeric/continuous values, such as age, heart rate, blood pressure Categoric...