CMAPSS EDA #4 수정중

먕먕·2022년 6월 12일

3편에서 우리는 시계열 분석을 연구하고 예측 유지 보수를 위한 분산 지연 모델을 탐구했다. 이번은 Survival analysis에 대해 알아보자. 예측 유지보수에 적합한 접근법이 될 수 있을 것이다.

Survival analysis primer

생존 분석은 특정 모집단의 수명에 대한 질문에 답하기 위해 의료 분야 내에서 시작되었다. 이 기술은 예를 들어 질병 치료를 위한 역학 또는 연구 내에서 적용된다. 그러나 데이터가 duration 및 time-based event로 구성된 다른 많은 경우(예: 이탈 예측 및 예측 유지 관리)에도 적용할 수 있다.

event : 관심 현상의 발생. 즉, 엔진의 고장
duration : 관찰이 시작되거나 관찰이 중지될 때까지의 시간
censoring : 관측치가 중지되었지만 관심 대상에게 아직 'event'이 없을 때
survival function : 생존 확률 at / 과거 시간 t
hazard function : 시간 t까지 event가 발생할 확률을 반환, t까지 event가 발생하지 않은 경우.

Survival analysis는 아직 event가 발생하지 않는 subject를 모델에 포함할 수 있다는 것이다. 전통적인 기계 학습에선 imcomplete(미완료) 혹은 검열된 subject가 결과를 편향시킬 수 있기에 버려야 한다.

Loading data

RUL을 125에서 clipping하고 쓸모없는 sensor들을 삭제

Data preparation

event 열이 필요하다. 따라서 엔진이 고장났는지(1) 계속 작동중인지(0)을 나타내는 breakdown 열을 추가한다. 다음으로 각 관측치의 시작 시간과 종료 시간을 표시한다. time_cycles 열을 사용하여 관찰의 끝을 나타낼 수 있으며 관찰 시작은 time_cycles-1인듯.

train set에서는 각 엔진이 고장 나므로 관측 중단이 발생하지 않는다. 200 time_cycle 이후의 기록을 무시하여 인위적으로 오른쪽으로 검열하자. 이를 통해 아직 고장이 발생한 엔진과 그렇지 않은 엔진을 혼합하여 데이터를 보다 사실적인 환경에서 사용할 수 있다.

KaplanMeier curve

0개의 댓글