Netflix는 약 2억 2200만명이 사용하고 있으며, smart TV 부터 핸드폰, 태블릿 등 1700여 가지 기기 종류로 운영되고 있다.
Netflix는 신뢰성에 자부심이 있고, 이를 유지하도록 노력하고 있습니다.
이를 위해서는 상당한 성능 저하가 application에 영향을 미치지 않도록 방지하는 것이 중요하다.
성능 저하로 인한 느린 스크롤 및 렌더링은 답답함을 유발하고, 툭툭 끊기는 현상은 시청을 망친다.
성능 회귀는 사용자 환경을 망치기 때문에 배포하기 전에 이런 challenge를 감지하고 수정해야한다.
성능 이상을 빠르고(종종 커밋이 반영되기도 전에) 쉽게 감지하기 위한 전략을 공유한다.
일반적으로 기술적인 측면에서의 "성능 측정"이란 요청 시작 시간을 기준으로 앱의 응답성(responsiveness) 또는 지연(latency)과 관련되어 측정된 metric을 수집하는 것을 의미한다.
Netflix는 다양한 디바이스를 제공하고 있는데, 특히 TV 는 다른 디바이스에 비해 메모리가 제한되는 경향이 있다.
그래서 Memory spike에 의한 crash가 발생할 가능성이 높습니다.
Netflix에서 "성능"이라는 용어는 일반적인 성능 metric과 메모리 metric을 포함한 것을 의미한다.
아직 배포되지 않은 코드에 대해서는 실시간 metric을 수집하기 어렵기 때문에, 해당 코드의 성능을 알기 어렵다.
그래서 배포 전에 Canary 배포를 통해 절체된 상황에서 Netflix 직원들에게 dogfooding을 진행하여 실시간 metric을 수집했었다.
Canary 배포를 통한 확인은 일부를 변경한 것으로 regression 을 놓치는 경우가 있고, 성능 저하가 감지되는 경우에도 복귀나 패치에 시간이 많이 걸린다.
merge 전 후의 모든 commit에 대해서 성능 테스트를 실행함으로서 잠재적인 성능 저하를 일찍 감지할 수 있다.
이러한 commit을 더 빨리 감지할수록 영향 받는 코드는 줄어들고, 패치가 더 쉬워진다. 이상적으로는 main branch에 도달하기 전에 이를 잡아내는 것이다.
성능 테스트의 목표는 netflix 전체 범위의 회원과 netflix TV가 상호 작용 시뮬레이션을 하면서 발생하는 Memory와 응답성 metric을 수집하는 것이다.
약 50개의 성능 테스트가 있으며, 각 테스트는 회원 가입 측면을 재현하도록 설계되었다.
목표는 각 테스트를 간략하게 유지하고, 특정 고립된 기능(시작, 프로필 전환, 제목 스크롤, 재생 등)에 초점을 맞추는 것이다.
테스트 케이스들은 최소한의 중복으로 모든 회원의 행동을 커버해야한다.
이러한 테스트를 병렬로 실행할 수 있도록 설계하고, 긴 테스트를 지양하여 전체 테스트 시간을 관리해야한다.
테스트는 PR 당 2번 실행한다(PR 제출 시, Merge 시)
각 성능 테스트는 메모리 또는 응답성을 추적한다.
두 metric은 계속해서 변하기 때문에 일정한 주기로 해당 메트릭을 보내는데,
테스트 실행 값을 비교하기 위해서는 단일 값으로 통일해야한다.
테스트 실행 중에 가장 큰 메모리 값을 사용
테스트 실행 중 관측된 중위 값을 사용 (인식된 속도가 최악의 response 인 경우 뿐만 아니라 모든 response가 영향 받는다는 가정에 기초함)
운영 중인 서비스의 실시간 성능 데이터를 캡처하여 앱 성능에 대한 주장을 비교적 쉽게 할 수 있으나,
main branch merge 된 코드를 성능 평가하거나, merge되지 않은 코드를 테스트하는 것은 훨씬 어렵다.
실제 Netflix app에서는 동일한 단계가 수십억 번 반복되지만, 리소스 제약으로 인해 성능 테스트는 많이 수행할 수 없다
테스트 프로세스가 아무리 정교하고, 엄격더라도 실제 사용자의 행동을 근사하게 추정할 수 있을 뿐 완전 동일할 수는 없다.
이상적인 코드베이스 테스트는 항상 동일한 결과를 반환해야한다.
그러나 실제로는 가비지 수집이 완전히 예측 가능하지 않으며, CPU 상태, 네트워크 상태 등 모든 것이 가변적이기 때문에 코드 이외에 background noise가 있을 것이다.
성능 검증을 위한 첫 번째 시도를 위해 메모리 metric에 허용되는 최대 임계값을 할당하는 것이었다.
메모리에는 한계값이 있기 때문에 의미있다고 생각했으나 이런 방법은 이슈가 있었다.
각 테스트별로 고유한 메모리 profile이 있기 때문에, 적절한 임계값이 모두 달라, 케이스 별로 선정 및 할당해야하는데
이러한 작업은 어렵고 시간이 많이 걸리기 때문에 몇몇 케이스에만 할당하였다.
검증 기법으로 임계값 방법은 적절하지 않다고 입증되었다. 만약 메모리 사용량이 10% 증가했으나 임계값보다는 낮은 수준인 경우, 어떠한 background noise로 인한 변화가 있는 경우 임계 값을 넘을 수 있다.
메모리 임계값에 충돌하는 경우, background noise가 테스트 결과에 얼마나 미쳤는지 확인하기 어렵다.
결과에 상관없이 모든 테스트 런에 동일한 가중치를 부여하여 고장 편향을 제거해야한다.
성능 데이터 지점을 별도로 처리하지 않고 이전 빌드와 비교하여 반영 건이 성능에 미치는 영향을 평가해야한다.
모든 유형의 테스트 데이터(메모리, 응답성 스트 데이터)에 동일하게 적용할 수 있어야하고,
절대값보다 분산을 우선하여 background noise의 영향을 최소화 해야한다.
이상이 있다 라는 것에 대해서 최근 평균보다 N 이상의 표준 편차인 모든 메트릭 데이터 포인트로 정의한다.
최근 평균과 표준 편차는 이전의 M 개의 테스트에서 파생된다. (예시에서 M은 40, N은 4)
변경점이란 두 개의 구별되는 데이터 분포 패턴의 경계에 있는 지점이다.
이를 구현하기 위해 최근 100개 테스트에 대해서 e-divisive(다중 변화점 분석을 위한 분할 계층적 추정 알고리즘)라는 기법을 사용하였다.
성능 회귀에만 관심이 있기 때문에 변경점에 대해서는 실패로 판단하지 않는다.
변화점은 반드시 회귀를 나타내지는 않지만 영향을 미친 시점을 보여준다.
변화점이 많은 테스트에서 발생하는 경우 배포 전에 확인이 필요하다.
변화점을 이용한다면 일회성 급증과 같은 이상은 무시하기 때문에 background noise 의 영향을 덜 받는다.
failure bias를 줄이기 위해서 모든 테스트를 3회 실행하기로 한다.
테스트 병목현상은 없고, background noise 영향도를 낮추기 위해 3회 반복을 선택하였다.
3회 실행된 테스트를 단일 값으로 압축하는 방식을 선택하였다.
처음에는 3번의 평균을 구했으나, 가장 불규칙한 테스트 결과가 너무 큰 영향을 미치기 때문에 오탐이 발생하였다.
중위수를 바꾸니 오탐은 줄었으나, 없애진 못했다. 결론적으로 3번의 테스트 중 가장 안정적인 수치를 사용하였다.
피봇 방식을 적용한 후 더 정확한 결과를 얻을 수 있었다.
임계점을 설정한 것이 아니기 때문에 수동 작업이 필요 없어져서 워크로드가 줄어들었다.
임계값을 설정하는 경우 수동 작업을 한 테스트만 적용이 가능했어 테스트 수는 적었으나 오탐이 많아 alert는 더 많았다.
이렇다보니 성능 테스트에 대한 신뢰도가 낮아져었는데, 피봇 방식을 적용한 후에는 성능 테스트가 실패되었을 때 실제 성능 회귀가 있다는 확신이 훨씬 더 높아졌다.
감지된 성능 저하가 실제로 발생했으나, 변경된 코드의 영향이 아닌 외부적 변경 요소에 의한 것으로 밝혀지는 경우가 많았다.
경고 시에 외부적 요소에 대해서 요약하면 좋을 것이다.
최근 평균 및 표준 편차 값을 생성할 때, 이미 수정된 부분은 제외하여 정확한 검증이 될 수 있도록 개선하면 좋을 것 이다
더 많은 메트릭을 수집하고, 성능 측정에 사용할수록 성능 저하를 예측하는데 도움이 될 것이다.