Domain Generalization

2한나·2026년 3월 15일

현재 문제 상황: Domain Shift

Domain Shift: 학습 데이터의 분포와 실제 테스트 데이터의 분포가 달라지는 현상
학습 데이터(TNG)와 실제 적용 대상(DESI)가 같은 feature 이름을 갖고 있어도, 그 feature가 만들어지는 과정, 분포, 결측 구조, 오차 구조가 다를 수 있음
Data Generalization: 머신러닝 모델은 보통 학습 때 본 분포와 테스트 분포가 같다고 가정하는데, 이 가정이 깨졌을 때를 다룸.

Data Augmentation

개념 정의

기존 학습 데이터를 다양한 방식으로 변형하여 새로운 학습 데이터를 생성하는 방법
모델이 특정 데이터 분포에 과적합되지 않도록 하고 더 다양한 데이터 환경을 경험하게 하는 것이 목적
이를 통해 모델이 입력 데이터의 작은 변화에 강건한(feature invariant) 표현을 학습하도록 유도함

문제 배경

학습 데이터가 특정 환경의 분포만 반영하는 경우 모델이 그 환경에 과적합될 수 있음
특히 simulation 데이터는 실제 관측 데이터보다 노이즈가 적고 분포가 깨끗한 경우가 많음
따라서 모델이 simulation 데이터의 특성에만 맞춰 학습되면 실제 데이터에서는 성능이 떨어질 수 있음

핵심 아이디어

학습 데이터를 인위적으로 다양화하여 모델이 더 넓은 데이터 분포를 경험하도록 한다.

즉, 동일한 데이터라도 다양한 변형을 만들어 모델이 특정 feature 값에 과도하게 의존하지 않도록 학습시킴

현재 실험 적용 예시

measurement noise 추가
feature scaling 변화
missing value 추가
일부 feature perturbation

주의할 점

이미지는 회전, 밝기 변화, blur와 같은 augmentation을 쉽게 적용할 수 있음
Tabular에서는 무작정 feature를 변형하면 물리적으로 이상한 샘플이 생길 수 있음
이에 실제로 target domain에서 생길법한 변화를 넣는 것이 중요

IRM (Invariant Risk Minimization)

개념 정의

여러 환경(environment)에서 공통으로 성립하는 예측 규칙(invariant rule)을 학습하도록 하는 방법
일반적인 머신러닝 학습(ERM)은 전체 데이터에서 평균적으로 잘 맞는 규칙을 찾지만 IRM은 환경이 바뀌어도 동일하게 작동하는 규칙만 사용하도록 모델을 학습시키는 것이 목표임
즉, 여러 데이터 환경에서 동시에 성립하는 예측 관계만 학습하여 새로운 환경에서도 일반화 성능을 유지하도록 만드는 것

문제 배경

일반적인 머신러닝 모델은 다음과 같은 문제를 겪음
- 특정 환경에서만 성립하는 우연한 상관관계(spurious correlation)를 학습할 수 있음
- 이에 학습 데이터에서는 성능이 좋지만 환경이 바뀌면 성능이 급격히 떨어질 수 있음
- IRM은 이러한 문제를 해결하기 위해 제안됨

핵심 아이디어

여러 환경에서 동시에 최적인 예측 규칙만 학습한다.

환경 A에서 잘 맞는 규칙
환경 B에서도 잘 맞는 규칙

이 두 조건을 동시에 만족하는 규칙만 남기고 환경 A에서만 맞는 규칙은 버리도록 학습함

ex
- 환경 A: Feature X ↑ → 병합 단계 ↑
- 환경 B: Feature X → 병합 단계와 관계 없음
- 공통적인 특징: Feature Z → 두 환경 모두에서 병합 단계와 관련
- => ERM은 평균 성능만 고려하므로 Feature X 사용 <-> IRM은 모든 환경에서 동시에 맞는 규칙을 찾으므로 Feature Z 사용

IRM이 작동하기 위한 조건

여러 환경이 존재해야함
- ex) redshift 구간, snapshot, stellar mass bin, noise 수준, observation 조건 등
환경마다 spurious correlation이 달라야 함
- ex) 환경 A: X ↔ label / 환경 B: X ↔ label 관계 약함
공통 신호 (invariant signal)가 존재해야 함
- ex) Z ↔ label 관계가 모든 환경에서 유지되어야 함

현제 실험 환경 정의 예시

snapshot
redshift bin
stellar mass bin
noise level
degraded simulation

Group DRO (Group Distributionally Robust Optimization)

개념 정의

데이터 전체 평균 성능이 아니라 특정 그룹에서의 최악의 성능(worst-group performance) 을 개선하도록 학습하는 방법
즉 모델이 특정 환경이나 그룹에서 성능이 급격히 떨어지는 것을 방지하도록 학습함

문제 배경

일반적인 ERM 학습은 평균 성능만 고려함
즉, 전체 데이터 정확도는 높으나 특정 그룹에서는 성능이 매우 낮을 수 있음
ex
- 특정 redshift 구간
- 특정 stellar mass 구간 등

핵심 아이디어

모든 그룹에서 일정 수준 이상의 성능을 유지하도록 학습한다.

예시

그룹별 성능

Group A accuracy = 92%
Group B accuracy = 91%
Group C accuracy = 65%

Group DRO 학습: Group C 성능을 개선하도록 학습

현재 실험 적용 예시

TNG 데이터를 다음과 같은 그룹으로 나누어 각 그룹에서 성능이 크게 떨어지지 않도록 학습

snapshot 그룹
redshift bin
stellar mass bin
SFR bin
noise level

Style Randomization

개념 정의

데이터의 style 요소(표면적인 특성) 를 무작위로 변경하여 모델이 style에 의존하지 않도록 하는 방법
모델이 실제 중요한 feature가 아닌 환경 특유의 패턴을 학습하는 것을 방지하는 것이 목적

문제 배경

모델이 실제 중요한 feature가 아니라 데이터 생성 방식의 특징을 학습할 수 있음
이 경우 모델은 style을 보고 예측할 수 있음

핵심 아이디어

스타일을 무작위로 변화시켜 모델이 스타일이 아닌 구조적 특징을 학습하도록 만든다.

예시 (이미지 데이터)
- texture 변경
- lighting 변경
- background 변경

현재 실험 적용 예시

대부분 이미지 데이터에 사용되는 방법이기에 tabular 데이터에서는 style이라는 개념이 직접적으로 존재하지 않음
억지로(?) 만들어 보자면,
- measurement noise variation: 측정 과정에서 발생하는 랜덤 노이즈(random noise) 의 변화. 같은 물리량이라도 측정할 때마다 값이 조금씩 달라지는 현상
- calibration variation: 관측 장비나 데이터 처리 과정에서 측정값이 일정하게 치우치는(systematic bias) 현상
- feature scaling variation: 같은 물리량이라도 데이터 처리 방식 때문에 스케일이 달라지는 현상
- observation bias variation: 관측 장비 자체의 특성 때문에 발생하는 측정 편향
현재 시뮬레이션 데이터로 학습, 관측 데이터로 추론하므로 시뮬레이션 데이터에는 없는 noise, calibration, instrument 문제가 관측 데이터에는 존재할 수 있음 이에 학습 데이터에 다음을 추가
- noise injection
- bias injection
- scaling variation
- measurement variation

Simulation Robustness

개념 정의

simulation 데이터로 학습한 모델이 실제 관측 데이터에서도 안정적으로 동작하도록 만드는 전략
simulation-to-real transfer 문제를 해결하기 위한 방법

문제 배경

시뮬레이션 데이터는 일반적으로 노이즈가 적고, 결측이 없고, feature가 정확함
반면 실제 관측 데이터는 노이즈, 결측, measurement error가 존재함
=> 이 차이를 reality gap이라고 함

핵심 아이디어

simulation 데이터를 다양한 변형 환경으로 확장하여 실제 데이터 환경을 미리 학습하도록 한다.

ex)

원본 simulation

clean TNG data

변형 simulation

noisy TNG
missing TNG
biased TNG
degraded TNG

결론 (우선순위)

Simulation Robustness (Data Augmentation 포함)
Group DRO
IRM
Style Randomization

2한나

이전 포스트

경제 용어

다음 포스트

Domain Generalization

Data Augmentation

개념 정의

문제 배경

핵심 아이디어

현재 실험 적용 예시

주의할 점

IRM (Invariant Risk Minimization)

개념 정의

문제 배경

핵심 아이디어

IRM이 작동하기 위한 조건

현제 실험 환경 정의 예시

Group DRO (Group Distributionally Robust Optimization)

개념 정의

문제 배경

핵심 아이디어

현재 실험 적용 예시

Style Randomization

개념 정의

문제 배경

핵심 아이디어

현재 실험 적용 예시

Simulation Robustness

개념 정의

문제 배경

핵심 아이디어

결론 (우선순위)

경제 용어

SHAP (SHapley Additive exPlanations)

0개의 댓글