SAP 시스템을 운영하면 시간이 지날수록 쌓이는 데이터가 많아지기 때문에, 데이터베이스의 디스크와 메모리에 대한 주기적인 모니터링과 관리 방안이 필요하다.
보통 초기 도입시에, 3 ~ 5년의 사용량을 예측하여 충분한 리소스로 오더를 한다.
하지만, 현재 리소스가 충분하더라도, 앞으로의 관리 계획(증설, 아카이빙 등) 을 위해 SAP HANA DB 의 사용량 추이를 모니터링하는 것은 중요하다.
이번 글에서는 운영한지 1년 이상 된, DB Size History 데이터가 어느정도 쌓인 SAP 시스템에 대해서,
엑셀의 시계열 분석(지수평활법, ETS) 을 사용해, 현재까지의 디스크, 메모리 사용량에 기반하여 미래의 값을 예측하는 방법에 대해서 기록한다.
해당 예측을 통해서, 미래 예측 수치를 확인하여 장기적으로 HANA DB 리소스 관리 계획을 세우는데 도움이 되길 바란다.
이번 분석에는 기본 엑셀 외에 추가 도구 없이, 매우 간단하게 수행할 수 있다. (필자의 엑셀 버전은 2016 이다.)
해당 시나리오는 HANA DB 를 기준으로 작성하였으나, 다른 대부분의 DB 에서도 DB 사용량 이력을 확인할 수 있다.
Tcode : ST04
-> 우측 메뉴 트리
-> System Information
-> DB Size History (Aggregation Period = Day)
-> 전체 데이터 Export
해당 데이터의 단위는 GB 이며, Memeory Used 데이터를 제외한 Disk Data, Disk Log 와 Disk Trace 열의 데이터는 필요없으니 삭제한다.
Memory 사용량이 곧 Disk 사용량과 직결되기 때문에, Memory 사용량으로 예측을 수행한다. 필요하다면 Disk 사용량으로 예측을 해도 무방하다.
1. 기초 데이터 준비
에서 익스포트 받은 데이터를 엑셀로 불러온다.
데이터가 있는 곳에 셀 포커스를 두고, 엑셀 상단의 메뉴탭에서 예측 시트를 수행한다.
엑셀 상단 메뉴탭
-> 데이터
-> 예측 - 예측 시트
-> 데이터가 자동으로 선택되며, 예측 워크시트 만들기
창 출력
-> 예측 종료
일자 설정
-> 옵션
버튼 확장
-> 신뢰 구간
체크박스 해제
-> 예측 통계 포함
체크박스 선택
-> 만들기
버튼 클릭
여기까지의 수행으로, 예측 시트가 새롭게 생성됨과 동시에,
예측 컬럼과 데이터, 예측 통계가 추가되고 추세 그래프가 자동으로 생성된다.
데이터 마지막 날짜를 기준으로 그 후의 값에 대해서 예측 컬럼에 예측된 데이터가 들어가게 된다.
현재 추세를 지수평활법(ETS)으로 계산한 데이터가 들어가며, 모델 특성상 최근 데이터 값에 더 높은 가중치를 부여하는 방식으로 미래 값을 예측한다.
예측에 사용된 모델(지수평활법)에 대한 통계값을 출력한다.
표시되는 통계값은 다음과 같다.
각 지표에 대한 자세한 설명은 바쁜 현대인을 위해 생략하고,
좋은지 나쁜지를 구분하는 정도만 기술한다.
여기서는, MASE 를 주요 지표로 보면 된다.
MASE 값이 1 을 초과하지 않는 다면, 어느 정도 유의미한 예측값이라고 생각할 수 있다.
실제 값과, 예측 값을 합하여, 꺽은선 그래프를 보여준다.
따라서, 전체적인 값의 추세를 쉽게 확인 할 수 있다.
종합적으로, 다음과 같은 예측 값과 통계 데이터, 추세 그래프를 확인할 수 있다.
우리의 목적은 정확한 예측이 아니라, 추세를 확인하는 것이기 때문에 모델을 튜닝할 필요 없이, 현재 출력된 데이터 만으로도 충분히 목표 달성이 가능하다.
그러나, 정확도 측정 지표의 MASE 값이 1 을 초과한다면, 약간의 조정이 필요할 수 있다.
특히, 지수평활법 모델에서는 최근값에 가중치가 더 크기 때문에, 무조건 많은 데이터를 입력한다고 결과가 좋아지지는 않는다.
따라서, MASE 값이 1 을 초과한다면, 옛날 데이터를 순차적으로 덜어내어, MASE 값이 0.5 ~ 1 로 들어올 수 있도록 조정해주는 것이 좋다.
RMSE 값은 오차를 제곱하고 평균을 낸 다음, 다시 제곱근으로 구한 값이다.
간단히 설명하면, 실제 값 대비, 예측값의 오차 량을 표현하는데, 큰 오차 값에 대해서 더 많은 오차 량을 보여준다.
따라서, RMSE 값이 높다는 말은 데이터에 오버슈트(이상치) 가 포함되어있다는 신호이므로, 일반적인 추세와 관련이 없는 이상치 데이터를 제외하고, 다시 예측을 수행하는 것이 좋다.
당연하겠지만, 현재 날짜 대비 예측 날짜가 멀수록 정확도는 줄어든다.
경험적으로는, 평균적으로 6개월을 넘어가면 오차가 커지기 시작하므로, 길어도 1년 이내의 예측 값을 활용하여 계획을 세우는 것을 추천한다.