How can we enhance ML algorithms with physical knowledge to make accurate predictions in climate conditions that – in standard variables – lie far outside of the training set?
이 논문에서 핵심은 raw-data의 특징을 사용하여 raw-data에서 climate invariant 이 가능한 매핑으로 변환하는 것. 그래서 기후에 따라 변하지 않는 매핑을 찾는 것.
기후 모델이 불확실하니까 그것을 줄이고자 함.
이걸 하게된 두가지 이유
1. Physically-based subgrid closures
2. atmospheric thermodynamic processes are directly affected by global temperature changes
위에 그림 보면 빨/파가 다른 기후 시스템이고 매핑이 힘들다는 것을 보여준다.
Three distinct storm-resolving climate models:
Three simulations with different surface temp:
잘 이해는 못했는데, 첫번째랑 두번째 모델은 큰 스케일(거시적) 과정이랑 미시적 과정 사이를 분리해놨다. 따로 처리할 수 있게끔? 그런데 마지막 모델은 큰 스케일이랑 소규모 과정 사이의 분리를 가정하지 않음. 그래서 모수화 과정을 위해서 이 모델의 출력을 조정하는 추가 작업이 필요하다고 했음.
Prescribed surface temperature 를 나타낸
Snapshots of near-surface subgrid heating rate
데이터에 대한 추가적인 설명
expose ML models to out-of-distribution inputs they have not been trained on.
총 두가지 실험을 진행한다.
1. Training and validating ML models on cold simulations (-4K) and testing them on warm simulations (+4K for SPCAM3/SPCESM2 and +0K for SAM)
2. training and validating ML models on aquaplanet simulations (SPCAM3) and testing them on Earth-like simulations with continents (SPCESM2)
첫 번째 실험은 기후 온난화와 같이 실제 세계에서 발생할 수 있는 시나리오에 모델의 반응을 테스트하는 반면, 두 번째 실험은 모델이 다른 지구 환경(예: 대륙의 존재)에 얼마나 잘 일반화할 수 있는지 평가함.
에 대해서 변환을 진행하는데,
예를 들어 specific humidity 같은 경우에 이게 습도 q의 확률 밀도 함수 PDF가 기후가 따뜻해짐에 따라 상당히 넓은 범위로 확장되는데 이는 포화를 초과하지 않는 한 어떤 상한선을 가지고 클라우지우스-클라페론(?) 관계를 통해서 온도와 함께 거의 지수적으로 증가한다고 한다.
이걸 RH로 변환할 때 특정 습도를 그 포화값으로 정규화하는데 그래서 0, 1사이값에 위치하며 SPCAM 에서 포화를 초과하는 몇몇 열을 제외하고 기후가 따뜻해져도 PDF는 거의 변하지 않는다고 한다.
전체적으로 신경망의 입력을 조금씩 변환함으로써 cold에서 학습한걸 warm 에서 얼마나 잘 일반화하는지 보는 피겨이다.
특히 특정 습도, 온도, 그리고 heat flux의 변환을 통해 모델의 오차를 줄이고 이렇게 변환을 적용한 신경망은 원시 데이터 모델과 비교해서 따듯한 기후 조건에서 더 높은 정확도가 나왔다.
다음으로 위 피겨에서는 모델들이 유효한 매핑을 학습하고 BN이다 DP같은 기술을 사용했을 때 효과가 향상됨을 보인다.
이게 MSE를 분석한 결과인데 NN CI 가 NNRD 보다 더 따뜻한 기후로 잘 일반화된다.
MLR RD : Multiple linear regression Raw data
MLR CI : Multiple Linear Regression Climate-Invariant
NN RD : Neural Network Raw Data
NN RD+DN: NN RD + dropout and batch normalization
위 피겨에서 어두우면 못맞추는것
(a)를 보면 모델이 cold training set 에서 잘 학습이 되었음에도 불구하고 모든 시뮬레이션에서 따뜻한 지역으로 일반화하는데 어려움을 겪는다.
(b)를 보면 climate invariant 모델에서는 따뜻한 모델로 테스트 했을 때에도 잘 일반화가 되는 모습이다.
위 피겨는 각각 모델이 따뜻한 아쿠아플래닛 시뮬레이션에서 어떻게 훈련되는지 모습인데 특히 climate invariant 에서 매핑이 공간적으로 더 지역적임을 보여준다.
A: 원시 데이터 모델의 경우 특정 습도와 온도와 같은 입력 변수의 변화가 넓은 범위의 레벨에서 출력변수에 영향을 미친다. 그니까 이게 왓다리 갓다리 할 수 잇단 거지 값이.
B 인 경우에 입력 변수가 주로 해당 입력이 있는 혹은 근접한 수직 레벨의 출력에만 영향을 미친다.
한줄 요약 : 변수 변환을 하고 학습했더니 잘되더라.