Graph Networks for Materials Exploration (GNoME)_05 안정적인 결정 발견

rosi·2024년 1월 5일
0

GNoME

목록 보기
5/5
post-thumbnail

이 시리즈의 목표는 중고등학생 수준으로 각종 논문을 읽어보고 이해하는 것에 있습니다. 이를 통하여 점진적으로 전문 용어와 개념에 익숙해지고자 합니다. 따라서 자세한 부분에서 틀린 부분이 있거나 전문적이지 않을 수 있습니다. 필요한 부분은 따로 더 집중적으로 다룰 예정입니다. 또한 영어-한국어의 번역이 매끄럽지 않을 수 있습니다. 영어적 표현에 익숙해지는 과정으로 보기를 바랍니다. 논문의 완전한 번역보다는 이해를 위한 발최 의역을 기본으로 합니다.


알아야할 간단한 정의

  • AIMD(ab initio molecular dynamics): 초기 분자 역학
  • K: 켈빈 온도 또는 절대 온도. -273°C = 0K라고 생각해도 된다. 400K는 대략 127도에 달한다.
  • 제 1원리 에너지: 양자역학 및 재료과학의 측면에서 슈뢰딩거 방정식과 같은 기본 물리적 원리를 기반으로 시스템의 에너지를 계산 한 것을 말한다.


그림 3. 학습된 원자간 전위 스케일링 a,623개의 미발견 구성을 대상으로 AIMD와 비교하여 GNoME으로 예측한 물질이 초이온(superionic) 전도체인지 분류. 훈련 세트 크기가 커짐에 배에 비래하여 에러가 줄어듬을 알 수 있다. b, 미발견 물질 K24Li16P24Sn8\text{K}_{24}\text{Li}_{16}\text{P}_{24}\text{Sn}_{8} 에 대한 훈련 세트 크기의 함수로서의 제로샷 강제 오차(Zero-shot force error). c, 실험물질 Ba8Li16Se32Si8\text{Ba}_{8}\text{Li}_{16}\text{Se}_{32}\text{Si}_{8} 에 대한 강제 MAE로 보는 분포이동에 대한 견고성. GNoME 사전 훈련과 무작위로 초기화된 전위는 T=400K (온도가 섭시 127도)에서 샘플링된 다양한 크기의 데이터에서 훈련되고, T=1000K (온도가 섭시 727도)에서 샘플링된 데이터에 대해 평가됩니다. 제로 샷 GNoME 전위는 수백 개의 구조물에 대해 처음부터 훈련된 최첨단 모델보다 성능이 뛰어납니다. d, 참조 56번의 테스트 세트에서 벌크 시스템을 위한 세가지 다른 사전 훈련된 범용 전위모델의 제로샷 강제 오차(Zero-shot force error). 성분 Ni(니켈)은 GNoME의 사전 훈련 데이터에는 존재하지 않습니다. RMSE는 평균 제곱근 오차를 말합니다.


학습된 원자 간 전위 확장(Scaling up learned interatomic potentials)

안정적인 결정을 발견하는 과정은 안정한 물질 그 이상의 데이터 소스도 제공합니다. 특히 이온 안정은 다양한 물질 구조에 대한 제1원리 에너지와 힘들의 계산이 필요합니다. 이를 통해 전례없는 다양성과 규모의 데이터 세트가 생성됩니다. 이를 이용하여 벌크 고체를 위한 범용 원자간 전위 머신러닝(MLIP)을 사전학습 할 수 있습니다. MLIP들은 제1원리 정확도로 계산된 참고/기준 구조의 에너지와 힘을 학습하여 재료/물질 시뮬레이션을 가속화할 수 있는 유망있는 도구가 되었습니다. 기존에는 초기 분자 역학(AIMD)에서 샘플링한 데이터로 물질별로 모델을 훈련했습니다. 이는 범용적 능력과 적용에 제한을 가져옵니다. 이는 비싼 데이터 수집비용과 각 시스템별 새로운 학습을 필요로 합니다. 다양한 구조적 완화에 따른 제1원리 계산의 GNoME 데이터 세트를 활용하여 MLIP들을 대규모 사전 훈련을 했습니다. 이는 뛰어난 제로 샷 정확도를 보여주었고, 이를 활용하여 재료별 훈련 없이도 초이온 전도체를 발견하는 데 사용할 수 있음을 증명했습니다.

제로 샷 스케일링 및 일반화 (Zero-shot scaling and generalization)

이온 이완에서 샘플링한 데이터에 대해 NequIP 전위 30의 사전 학습을 확장합니다. 사전학습 데이터가 증가할 수록 지속적으로 정확도가 증가하는 것을 관찰할 수 있습니다 (그림 3a,b). 분자 역학 데이터가 아닌 이온 이완 데이터에 학습했음에도 불구하고, 사전훈련된 GNoME 전위는 제로샷 방식으로, 즉 AIMD 시뮬레이션에서 나온 데이터가 훈련에 포함되지 않았을때, AIMD의 새로운 분포에서 샘플링된 다운 스트림 데이터로 평가할때 놀라운 정확도를 보여줍니다(그림 3). 특이한 점은 여기에 보여지지 않은 구성요소, 녹은 구조(melted structures), 빈공간을 둔 구조가 포함된다는 것입니다(보충 주석 6.4). GNoME 데이터 세트의 규모로 인하여 기존의 범용 잠재력을 능가할 수 있으며, 사전 훈련된 잠재력이 목표 데이터 분포의 수백 개의 샘플에 대해 명시적으로 훈련된 모델과 경쟁 할 수 있다는 것을 발견했습니다(보충 주석 6.4). MLIP들의 가장 큰 단점 중에 하나인 전이성(transferability)에서 뚜렷한 개선을 관찰했습니다. 전이성의 잠재력을 평가하기 위해 분포 이동을 하면서 성능을 테스트합니다. T=400K의 AIMD에서 샘플링한 구조에 대해 두가지 유형의 NequIP 전위를 훈련합니다. 하나는 무작위로 초기화된 가중치로 네트워크를 훈련하고, 다른 하나는 사전 훈련된 GNoME 체크포인트에서 미세조정(fine-tune)하는 방법으로 했습니다. 그런 다음에 T=400K 데이터의 분포에서 벗어난 T=1000K의 AIMD에서 샘플링된 데이터에 대해 두 전위의 성능을 측정합니다(그림 3c). GNoME 데이터에 사전 훈련된 전위는 1,000개 이상의 구조에 대해 바닥부터 훈련된 전위보다 더 체계적이고 강력한 전이성을 보여줍니다. 이 구성의 어떠한 데이터에도 미세조정되지 않은 제로 샷 GNoME 전위는 수백개의 구조에 대해 훈련된 최고의 NequIP 모델보다 훨씬 뛰어납니다.

고체 이온 전도체 스크린닝 (Screening solid-state ionic conductors)

고체 전해질은 고체 배터리의 핵심 구성 요소입니다. 이는 액체 전해질보다 높은 에너지 밀도와 안정성을 보장하지만, 현재로써는, 낮은 이온 전도도가 문제가 되고 있습니다. 새로운 전해질 소재를 찾는 과정에서 AIMD를 사용하여 제1원리로부터 이온 전도도를 예측할 수 있습니다. 하지만 전자수에 따른 DFT의 낮은 확장성 때문에 일반적인 시뮬레이션은 수백 피코초(101210^{-12}s), 수백개의 원자들, 가장 중요한, 작은 검색 공간으로 제한됩니다. 여기에서 GNoME 전위가 분포에서 벗어난 제로샷 환경에서 높은 견고성을 보이고, 고온에서 일반화되었기 때문에, 새로운 고체 전해질 발견을 위한 처리량이 많은 도구로 사용될 수 있음을 알 수 있습니다. 623개의 새로운 화합물에 대한 분자 역학 시물레이션에서 다양한 크기의 데이터 세트로 훈련된 GNoME 전위를 사용합니다. 그림 3a는 AIMD와 비교하여 사전 훈련된 GNoME 전위가 본적 없는 구성에 대하여 초이온성 전도체로 분류하는 능력을 보여줍니다.
기존 방식보다 훨씬 큰 GNoME 데이터 세트로 확장하면 딥러닝은 이전에는 불가능했던 무기물 벌크 결정(inorganic bulk crystals)의 원자간 전이 가능한 전위를 구축하는데 필요한 기능을 구현할 수 있으며, 이를 대규모로 재료의 특성을 높은 정확도의 제로샷으로 예측할 수 있습니다.

결론 (Conclusion)

크고 다양한 제1원리 계산 세트로 훈련된 GNN들이 무기 물질의 효율적인 발견을 가능하게 했습니다. 이로 인해, 안정적인 결정의 수를 크게 증가시켰습니다. 관련된 데이터 세트는 머신러닝 원자간 전위를 강화하여, 처음보는 벌크 물질에 대해 정확하고 든든한(robust) 분자역학 시뮬레이션을 제공할 수 있습니다. 이번 연구결과는 자연과학에서 딥러닝 시스템의 능력에 대한 의문을 일으킵니다. 과학적 발견을 위한 머신러닝 방법은 전통적으로 동일하게 분산된 데이터를 훈련과 테스트에서 작동하지만, 실질적인 발견은 분산 밖의 노력이라는 문제를 겪었습니다. 대규모 학습에 대한 이번 결과는 이러한 딜레마에서 벗어나는 움직임을 보였습니다. GNoME 모델이 대규모에서 분산 밖에서 능력을 보여주었기 때문입니다. 여기에는 미지의 화학공간(4개 이상의 서로 다른 원소)에서의 발견과 새로운 다운 스트림 작업(운동 특성 예측)이 포함됩니다.
GNoME 모델은 이전 작업과 관련하여 이미 220만개의 안정적인 결정을 발견하였습니다. 그리고 재료과학자들에게 이전에는 불가능했던 모델링 능력을 가능하게 했습니다. 경쟁 동소체(competing polymorphs)를 통한 상전이, 진동 프로파일과 구성 입방체에서 발생하는 동적 안정성, 궁극적으로는 합성가능성에 대한 이해도를 높이는 등 연구결과를 적용하기 위해서는 해결해야하는 문제들이 남아있습니다. 그럼에도 불구하고, 사전 훈련된 범용 GNoME 모델이 다양한 응용 분야에서 강력한 도구로 사용되어 재료 발견을 가속화할 수 있음을 보았습니다.

profile
rosi

0개의 댓글