현재 문제 상황: Domain Shift
- Domain Shift: 학습 데이터의 분포와 실제 테스트 데이터의 분포가 달라지는 현상
- 학습 데이터(TNG)와 실제 적용 대상(DESI)가 같은 feature 이름을 갖고 있어도, 그 feature가 만들어지는 과정, 분포, 결측 구조, 오차 구조가 다를 수 있음
- Data Generalization: 머신러닝 모델은 보통 학습 때 본 분포와 테스트 분포가 같다고 가정하는데, 이 가정이 깨졌을 때를 다룸.
Data Augmentation
개념 정의
- 기존 학습 데이터를 다양한 방식으로 변형하여 새로운 학습 데이터를 생성하는 방법
- 모델이 특정 데이터 분포에 과적합되지 않도록 하고 더 다양한 데이터 환경을 경험하게 하는 것이 목적
- 이를 통해 모델이 입력 데이터의 작은 변화에 강건한(feature invariant) 표현을 학습하도록 유도함
문제 배경
- 학습 데이터가 특정 환경의 분포만 반영하는 경우 모델이 그 환경에 과적합될 수 있음
- 특히 simulation 데이터는 실제 관측 데이터보다 노이즈가 적고 분포가 깨끗한 경우가 많음
- 따라서 모델이 simulation 데이터의 특성에만 맞춰 학습되면 실제 데이터에서는 성능이 떨어질 수 있음
핵심 아이디어
학습 데이터를 인위적으로 다양화하여 모델이 더 넓은 데이터 분포를 경험하도록 한다.
- 즉, 동일한 데이터라도 다양한 변형을 만들어 모델이 특정 feature 값에 과도하게 의존하지 않도록 학습시킴
현재 실험 적용 예시
- measurement noise 추가
- feature scaling 변화
- missing value 추가
- 일부 feature perturbation
주의할 점
- 이미지는 회전, 밝기 변화, blur와 같은 augmentation을 쉽게 적용할 수 있음
- Tabular에서는 무작정 feature를 변형하면 물리적으로 이상한 샘플이 생길 수 있음
- 이에 실제로 target domain에서 생길법한 변화를 넣는 것이 중요
IRM (Invariant Risk Minimization)
개념 정의
- 여러 환경(environment)에서 공통으로 성립하는 예측 규칙(invariant rule)을 학습하도록 하는 방법
- 일반적인 머신러닝 학습(ERM)은 전체 데이터에서 평균적으로 잘 맞는 규칙을 찾지만 IRM은 환경이 바뀌어도 동일하게 작동하는 규칙만 사용하도록 모델을 학습시키는 것이 목표임
- 즉, 여러 데이터 환경에서 동시에 성립하는 예측 관계만 학습하여 새로운 환경에서도 일반화 성능을 유지하도록 만드는 것
문제 배경
- 일반적인 머신러닝 모델은 다음과 같은 문제를 겪음
- 특정 환경에서만 성립하는 우연한 상관관계(spurious correlation)를 학습할 수 있음
- 이에 학습 데이터에서는 성능이 좋지만 환경이 바뀌면 성능이 급격히 떨어질 수 있음
- IRM은 이러한 문제를 해결하기 위해 제안됨
핵심 아이디어
여러 환경에서 동시에 최적인 예측 규칙만 학습한다.
- 환경 A에서 잘 맞는 규칙
- 환경 B에서도 잘 맞는 규칙
이 두 조건을 동시에 만족하는 규칙만 남기고 환경 A에서만 맞는 규칙은 버리도록 학습함
- ex
- 환경 A: Feature X ↑ → 병합 단계 ↑
- 환경 B: Feature X → 병합 단계와 관계 없음
- 공통적인 특징: Feature Z → 두 환경 모두에서 병합 단계와 관련
- => ERM은 평균 성능만 고려하므로 Feature X 사용 <-> IRM은 모든 환경에서 동시에 맞는 규칙을 찾으므로 Feature Z 사용
IRM이 작동하기 위한 조건
- 여러 환경이 존재해야함
- ex) redshift 구간, snapshot, stellar mass bin, noise 수준, observation 조건 등
- 환경마다 spurious correlation이 달라야 함
- ex) 환경 A:
X ↔ label / 환경 B: X ↔ label 관계 약함
- 공통 신호 (invariant signal)가 존재해야 함
- ex)
Z ↔ label 관계가 모든 환경에서 유지되어야 함
현제 실험 환경 정의 예시
- snapshot
- redshift bin
- stellar mass bin
- noise level
- degraded simulation
Group DRO (Group Distributionally Robust Optimization)
개념 정의
- 데이터 전체 평균 성능이 아니라 특정 그룹에서의 최악의 성능(worst-group performance) 을 개선하도록 학습하는 방법
- 즉 모델이 특정 환경이나 그룹에서 성능이 급격히 떨어지는 것을 방지하도록 학습함
문제 배경
- 일반적인 ERM 학습은 평균 성능만 고려함
- 즉, 전체 데이터 정확도는 높으나 특정 그룹에서는 성능이 매우 낮을 수 있음
- ex
- 특정 redshift 구간
- 특정 stellar mass 구간 등
핵심 아이디어
모든 그룹에서 일정 수준 이상의 성능을 유지하도록 학습한다.
예시
Group A accuracy = 92%
Group B accuracy = 91%
Group C accuracy = 65%
- Group DRO 학습: Group C 성능을 개선하도록 학습
현재 실험 적용 예시
TNG 데이터를 다음과 같은 그룹으로 나누어 각 그룹에서 성능이 크게 떨어지지 않도록 학습
- snapshot 그룹
- redshift bin
- stellar mass bin
- SFR bin
- noise level
Style Randomization
개념 정의
- 데이터의 style 요소(표면적인 특성) 를 무작위로 변경하여 모델이 style에 의존하지 않도록 하는 방법
- 모델이 실제 중요한 feature가 아닌 환경 특유의 패턴을 학습하는 것을 방지하는 것이 목적
문제 배경
- 모델이 실제 중요한 feature가 아니라 데이터 생성 방식의 특징을 학습할 수 있음
- 이 경우 모델은 style을 보고 예측할 수 있음
핵심 아이디어
스타일을 무작위로 변화시켜 모델이 스타일이 아닌 구조적 특징을 학습하도록 만든다.
- 예시 (이미지 데이터)
- texture 변경
- lighting 변경
- background 변경
현재 실험 적용 예시
-
대부분 이미지 데이터에 사용되는 방법이기에 tabular 데이터에서는 style이라는 개념이 직접적으로 존재하지 않음
-
억지로(?) 만들어 보자면,
- measurement noise variation: 측정 과정에서 발생하는 랜덤 노이즈(random noise) 의 변화. 같은 물리량이라도 측정할 때마다 값이 조금씩 달라지는 현상
- calibration variation: 관측 장비나 데이터 처리 과정에서 측정값이 일정하게 치우치는(systematic bias) 현상
- feature scaling variation: 같은 물리량이라도 데이터 처리 방식 때문에 스케일이 달라지는 현상
- observation bias variation: 관측 장비 자체의 특성 때문에 발생하는 측정 편향
-
현재 시뮬레이션 데이터로 학습, 관측 데이터로 추론하므로 시뮬레이션 데이터에는 없는 noise, calibration, instrument 문제가 관측 데이터에는 존재할 수 있음 이에 학습 데이터에 다음을 추가
- noise injection
- bias injection
- scaling variation
- measurement variation
Simulation Robustness
개념 정의
- simulation 데이터로 학습한 모델이 실제 관측 데이터에서도 안정적으로 동작하도록 만드는 전략
- simulation-to-real transfer 문제를 해결하기 위한 방법
문제 배경
- 시뮬레이션 데이터는 일반적으로 노이즈가 적고, 결측이 없고, feature가 정확함
- 반면 실제 관측 데이터는 노이즈, 결측, measurement error가 존재함
- => 이 차이를 reality gap이라고 함
핵심 아이디어
simulation 데이터를 다양한 변형 환경으로 확장하여 실제 데이터 환경을 미리 학습하도록 한다.
ex)
clean TNG data
noisy TNG
missing TNG
biased TNG
degraded TNG
결론 (우선순위)
- Simulation Robustness (Data Augmentation 포함)
- Group DRO
- IRM
- Style Randomization