본 글은
https://brunch.co.kr/@gimmesilver/1
위 페이지의 내용을 깊게 참고하여 학습 목적으로 정리한 글입니다.
많은 도움을 받고 있습니다.
깊은 감사를 전합니다.
내삽(Interpolation)은 기존 데이터 범위 내에서 값을 예측하는 것이고, 외삽(Extrapolation)은 데이터 범위 밖의 값을 예측하는 것이다.
이를 게임 데이터로 설명하면 아래와 같다.
유저 수(만) | 월 매출(억) |
---|---|
10 | 5 |
20 | 12 |
30 | 18 |
40 | 25 |
내삽 예시: 유저 수가 25만 명일 때의 매출을 예측하는 것
외삽 예시: 유저 수가 50만 명일 때의 매출을 예측하는 것
온라인 게임에서는 네트워크 효과로 인해 예측이 더욱 복잡해진다. 네트워크 효과란 사용자가 많아질수록 서비스의 가치가 높아지는 현상으로 다음과 같은 구조를 보인다.
각 모델은 다음과 같은 특성을 가진다.
선형 회귀: 기울기가 항상 일정
랜덤 포레스트: 데이터가 없는 영역에서는 변화율이 0
이게 무슨 말인고,,,하면 아래와 같다.
랜덤 포레스트의 특성을 구체적인 예시로 설명하겠습니다.다음과 같은 학습 데이터가 있다고 가정해보면
X (입력값) Y (출력값) 2 1 4 3 6 5 8 7 10 9 앞선 그래프의 초록색 선을 보면, X=10까지가 학습 데이터의 범위이고, 이 범위 내에서는 계단 형태로 예측이 이루어진다.
만약 X=11, 12, 13... 등 학습 데이터 범위(X=10)를 벗어난 값을 예측하려고 한다면?
- Y값은 계속 9에 머물게 된다.
- 즉, X가 증가해도 Y는 변화하지 않음 (변화율 = 0)
이는 랜덤 포레스트가 학습 데이터의 범위를 벗어난 영역에서는 가장 마지막에 학습한 값(이 경우 X=10일 때의 Y=9)을 그대로 사용하기 때문이다. 이것이 바로 "변화율이 0"이라는 의미!
이러한 특성 때문에 랜덤 포레스트는 외삽(학습 범위 밖의 예측)에는 적합하지 않을 수 있다는 관점이 있다. (다변수에서도 마찬가지)
다항 회귀: 고차항으로 인한 과적합 위험
유저 행동 분석
수익화 모델 최적화
신규 시장 예측
장기 성과 예측
데이터 보강
하이브리드 접근