https://github.com/allen-adastra/PopDownGym/blob/main/pop_down_gym/raptor/run_policy_with_raptor.py
https://www.nature.com/articles/s42005-025-02146-6
플라즈마 붕괴는 플라즈마 제어가 갑자기 무너지는 현상으로, 단순한 성능 저하를 넘어 장치에 심각한 손상을 줄 수 있다.
붕괴에 대응하는 방법은 여러 가지가 있지만, 지금까지는 주로 플라즈마를 강제로 종료시키는 방식이 사용되어 왔다. 예를 들어 가스를 주입해 플라즈마를 빠르게 꺼버리는 방법(MGI)이다. 이 방식은 장치를 보호하는 데는 효과적이지만, 동시에 구조물에 큰 부담을 주기 때문에 반복적으로 사용하기에는 한계가 있다.
그래서 최근에는 붕괴가 발생하기 전에 플라즈마를 안전하게, 부드럽게 종료하는 방법이 떠오르고 있다.
이때 핵심은 플라즈마 전류를 점진적으로 줄이는 ramp-down이다. 플라즈마 전류가 클수록 구조적인 하중과 위험이 급격하게 증가하기 때문에, 이를 얼마나 안정적으로 낮출 수 있는지가 매우 중요하다.
문제는 이 과정을 설계하는 것이 어렵다. 기존에는 최적화 기법 이용해 미리 "이렇게 줄이면 된다" 경로를 계산했지만, 실제 운전에서는 물리 조건이 계속 변하기 때문에 하나의 경로로 모든 상황 대응하기 어렵다. 또한 플라즈마 내부 물리 현상이 매우 복잡해서 정확히 계산하려면 막대한 계산 자원이 필요하다. 하지만 실제 토카막 운전에서는 문제가 발생했을 때 빠르게 대응해야 하기 때문에 사용할 수 없다.
ML/DL 활용 시도도 있었지만, 많은 데이터를 필요로 한다는 한계가 있다. 핵융합 실험은 충분한 데이터 확보가 어렵다.
본 논문은 이러한 문제들을 해결하고자 3가지 목표를 둔다.
1. 적은 데이터로 학습 가능한 모델 개발
2. 실시간 ramp-down 제어
3. 물리적 불확실성에도 강한 경로 최적화
이를 위해 물리 모델 + 머신러닝 결합한 하이브리드 동역학 모델을 만들고, 이를 JAX 기반으로 구현해 GPU에서 대량 병렬 계산을 한다.
본 연구는 RAPTOR 시뮬레이터를 SPARC의 기준 시나리오에 맞게 설정하여 실험 환경으로 사용했다. 플라즈마 전류와 가열 조건을 다양하게 바꿔가며 총 481개의 ramp-down 시뮬레이션 데이터를 만들었고, 이 중 336개를 모델 학습에, 나머지는 성능 검증에 사용했다.
강화학습 정책은 8개의 상태 정보를 입력 받아 4개의 제어 행동을 선택하며, 목표는 플라즈마 전류를 2MA 이하로 낮추면서도 장치 운영자가 설정한 여러 안전 제한을 넘지 않는 것이다.
이 정책은 두 가지 방식으로 활용된다.
1. 다양한 물리 조건에 맞는 최적의 경로(trajectory) 설계
2. 실시간 플라즈마 제어로 위험한 상태 피하는 컨트롤러
강화학습으로 학습된 제어 정책은 실제 장치에 적용하기까지 많은 시행착도와 검증이 필요해서 충분한 검증 없이 바로 사용하는 것은 불가능하다.
그 대신 본 연구에서는, 학습된 제어 정책을 직접 제어에 쓰기 보다는 'trajectory 설계 도구'로 활용할 수 있음을 보여준다. 즉, 다양한 상황에 대응할 수 있는 여러 개의 feed-forward 운전 경로를 만들어내고, 이를 고정밀 시뮬레이션으로 검증한 뒤 실제 장치에 적용하는 방식이다.
Constraint-conditionaed 정책
중요한 기능: 사용ㅈ자가 제약 조건을 자유롭게 바꿀 수 있어야 한다.
=> 어떤 물리량이 실제로 위험한지에 대한 기준이 명확하지 않기 때문에
이 정책은 실행 시점(inference)에서 사용자가 제약 조건을 입력으로 넣으면, 그 조건에 맞는 경로를 생성할 수 있다.
학습된 정책은 단순 경로 생성에 그치지 않고, 실제로 플라즈마 상태를 보면서 실시간으로 제어하는 컨트롤러로도 사용 가능하다.
이를 위해 해당 정책을 RAPTOR 시뮬레이터에 적용해 피드백 제어 방식으로 ramp-down 수행 실험 진행했다.
매 시간마다 RAPTOR가 플라즈마 상태를 정책에 전달하면, 정책이 그에 맞는 제어 행동을 결정하는 방식이다.
실험 결과는 단순히 미리 정해진 경로를 따르는 방식보다 이 정책이 제약 조건을 훨씬 잘 지키면서도 전류를 줄이는 데 성공했다. (물론 완벽하진 않음)
질문. 강화학습 정책을 이용해 feed-forward 경로 만드는 대신, 아예 처음부터 feedfoward 경로 자체를 직접 최적화할 순 없을까?
이렇게 하면 아직 충분히 검증됮지 않은 AI 정책을 실제 장치에 적용하는 위험을 줄일 수 있다는 장점이 있다.
문제. 피드백 제어는 상황을 보면서 계속 수정할 수 있지만, feed-forward 방식은 한 번 정해진 경로를 그대로 따라야 하기 때문에 물리적 불확실성이나 외란에 미리 대비해야 한다.
해결. 여러 물리 조건을 동시에 고려하는 최적화 방법 제안
서로 다른 물리 파라미터를 가진 많은 시뮬레이션을 병렬로 실행하고, 그 모든 경우에서 제약 조건을 최대한 잘 만족하도록 하나의 경로를 최적화한다. 즉, 특정 상황에만 맞는 경로가 아니라, 다양한 상황에서도 잘 작동하는 "강건한" 경로를 찾는 것이다.
실험 결과, 이렇게 최적화된 feed-forward 경로는 강화학습 기반 피드백 정책과 비슷한 수준으로 전류를 줄이고 제약 조건도 잘 만족하는 성능을 보였다.