1) 데이터가 독립적이고 동일한 분포를 가진 경우
KFold, RepeatedKFold, LeaveOneOut(LOO), LeavePOutLeaveOneOut(LPO)
2) 동일한 분포가 아닌 경우
StratifiedKFold, RepeatedStratifiedKFold, StratifiedShuffleSplit
3) 그룹화된 데이터의 경우
GroupKFold, LeaveOneGroupOut, LeavePGroupsOut, GroupShuffleSplit
4)시계열 데이터의 경우
TimeSeriesSplit
group shuffle split : shufflesplit + GroupKFold 클래스의 치우침을 방지하고 랜덤 분할

shufflesplit : 데이터를 먼저 섞은 후 fold를 분할.

groupKfold : 동일한 한 클래스가 테스트 또는 훈련 데이터 세트ㅔ 한 번에 들어가지 않도록 한다

TimeSeriesSplit도 있음 연속적인 데이터를 유지해야하므로 앞에서 훈련시킨 것들을 다음에도 연속적으로 사용함 --> 이게 그룹화가 되는가? 안되는거 같음 그렇다면 FD002, FD004에서는 사용 불가할 듯

센서들간의 cor를 비교해서 상관도가 매개변수(tuning을 통해 최적의 변수를 구해야겠지만) 이상인 센서들만 사용하는 방법
https://medium.com/@rohit.malhotra67/multi-classification-of-nasa-turbofan-engines-using-xgboost-classification-ml-algorithm-2ead5ec442c1
센서들의 4분위 수를 구해서 healthy, medium, alarm 등의 4 종류의 상태로 나눔 이게 뭔 의미가 있을지는 모르겠지만...? 여러 threshold를 기반으로 다양한 상태의 alarm을 줄 수도 있을지도?
ReduceLROnPlateau
https://www.kaggle.com/code/sanchitapaul/nasa-turbofan-degradation-model
쭉 읽어보자
rve 논문은 모델구현부분이 좀 복잡하다 sequential을 사용할 줄 아는 줄 알았는데 이건 처음 보는 구조이다.
create_model 함수 안에
class Sampling이 있고 그 안에 call함수가 있다 이 sampling이 하는 것은 mu + tf.exp(0.5 sigma) epsilon을 계산해 반환해주는 것 같다. Uses (z_mean, sigma) to sample z, the vector encoding an engine trajetory라고 설명이 나와있다 --> 논문 자세히 읽어보면 나올듯
input 만들고 mask를 만든다 Masking이 하는 것은 무엇인가? --> 찾아보기 bidirectional lstm, dense층 2개로 나온 mu, sigma 값을 구해서 sampling 함수를 통해 z를 구한다. 그 후 encoder에 Model()로 이 값들을 넣어준다.
비슷하게 regressor를 만든다 이때 input은 latent에 관련된 input 값들인듯
RVE도 만든다 이 안에 metrics train_step test_step 함수가 있고
rve = RVE(encoder, regressor)를 부른다 compile까지.
RVE type은 main.create_model임
svd => 차원축소
우리는 이미 latent space로 차원축소를 함
https://www.kais99.org/jkais/springNfall/autumn2021/oral/2021_autumn_060.pdf
노이즈를 제거하는 방법으로는 kalman Filter Wavelet Transform Smoothing spline simple moving average local regression 등이 있다
local regression과 simple moving average는 변동성이 존재하는 데이터를 평활화하여 노이즈를 제거하는 것이다.
Bootstrap기법
추정하고자 하는 데이터의 확률분포 및 신뢰구간을 이론적으로 구하기 힘든 경우에 사용한다.
http://chosun.dcollection.net/public_resource/pdf/200000267134_20220622233918.pdf
file:///C:/Users/Lee/Downloads/2236-Full-Length%20Manuscripts-6740-1-10-20201118.pdf
cmapss 관련 논문 정ㅇ리