산업 고장 진단에서 고장 분류는 흔한 문제입니다. 일반적으로 분류기는 다양한 클래스 간에 동일한 양의 데이터를 가정하고 구축됩니다. 그러나 산업 과정에서 수집된 정상 데이터와 고장 데이터의 양은 종종 불균형합니다. 본질적으로, 고장 분류는 또한 불균형 데이터 분류 문제입니다. 이 문제를 해결하기 위해, 데이터 증강 방법을 사용하여 효과적으로 더 많은 데이터를 생성하고 데이터 균형을 달성할 수 있습니다. 분류의 성능은 생성된 데이터에 크게 영향을 받는데, 생성된 데이터의 품질이 분류 성능에 큰 영향을 미칠 수 있습니다. 생성된 데이터의 안정성을 보장하기 위해, 이 논문은 단일 데이터의 생성을 시계열 데이터 생성으로 확장하는 시간 변이 오토인코더를 사용합니다. 생성된 시계열 데이터를 사용하여, 불균형 고장 분류 문제를 해결하기 위한 새로운 분류기인 시계열 데이터 증강 분류기(TSDAC)를 제안합니다. 그 후, TSDAC은 테네시 이스트만(TE) 벤치마크 과정에 적용됩니다. 결과는 TSDAC이 불균형 고장 분류에 권장된다는 것을 보여줍니다.
산업 정보 기술의 발전은 실시간 공정 데이터의 수집 및 분석을 가능하게 하여, 공정 모니터링에 대한 강력한 기반을 제공합니다. 이를 통해 산업 공정의 복잡한 동작을 정확하게 반영할 수 있는 데이터 기반 모델을 개발할 수 있게 되었습니다. 데이터 기반 모델은 공정 데이터를 통해 모니터링 모델을 구축하고, 산업 공정의 상태를 실시간으로 관찰하는 데 있어 중요한 역할을 합니다. 이러한 모델은 개발 및 유지 관리 비용이 상대적으로 저렴하면서도 고품질의 성능을 제공하는 주요 장점을 가지고 있습니다.
고장 분류 문제는 공정 모니터링에서 중요한 이슈로, 잘 설계된 고장 분류기는 상태 이상을 감지하고 고장 범주를 시간 내에 식별할 수 있어야 합니다. 그러나 기존의 분류 알고리즘은 각 범주의 데이터가 균형을 이루었다는 조건하에 설계되었기 때문에, 실제 공정에서는 정상 데이터에 비해 고장 데이터가 희소하여 이러한 알고리즘을 직접 적용하기 어렵습니다. 이로 인해 모델은 대량의 데이터만 학습하고 희소한 데이터를 노이즈로 간주하여 분류 성능이 저하됩니다.
이러한 불균형 데이터 문제를 해결하기 위해, 다양한 방법이 개발되었습니다. 예를 들어, 오버 샘플링과 언더 샘플링 방법은 데이터 균형을 맞추기 위해 사용되지만, 이는 모델에 대한 불확실성을 초래할 수 있습니다. 따라서, 변이형 오토인코더(VAE)와 생성적 적대 신경망(GAN)과 같은 생성 모델이 불균형 데이터 문제를 해결하기 위해 개발되었습니다.
본 논문에서는 불균형 고장 분류를 위한 시계열 데이터 증강 분류기(TSDAC)를 제안합니다. TSDAC는 동적 공정의 불균형 고장 데이터를 처리할 수 있으며, 정적 공정의 경우 데이터를 시리얼화하여 생성에 재사용함으로써 데이터 생성의 안정성을 향상시킵니다. 또한, 시계열 데이터 증강을 기반으로 한 TSDAC는 시계열 데이터의 양을 균형있게 하고 분류 성능을 향상시킬 수 있습니다. 본 논문은 VAE와 TimeVAE를 간략히 소개하고, TSDAC의 제안과 데이터 시리얼화, 시계열 데이터 생성 및 불균형 고장 분류 과정을 상세히 설명합니다. 마지막으로, 테네시 이스트만 공정에 TSDAC를 적용하여 그 효과를 검증합니다.
변이형 오토인코더(VAE)는 강력한 딥 생성 모델입니다. VAE의 구조는 인코더와 디코더 두 부분으로 구성됩니다. 인코더는 입력을 잠재 변수로 변환하는데, 이 잠재 변수는 표준 가우시안 분포를 따르도록 장려됩니다. 한편, VAE의 디코더를 통해 잠재 변수는 입력을 재구성합니다. VAE의 손실 함수에는 재구성 손실과 잠재 변수와 표준 가우시안 분포 사이의 KL 발산이 포함됩니다. VAE의 손실 함수는 입력 x, 재구성된 µx, 잠재 변수 z, 신경망의 매개변수 ϕ와 θ를 포함하여, 재구성 손실은 ∥x−µx∥²로 표현되며, KL 발산은 q(z|ϕ)와 N(0, I)의 유사성에 의해 측정됩니다.
TimeVAE는 VAE의 확장판으로, VAE와 비교할 때 TimeVAE는 시계열 구조를 포함하고 있습니다. TimeVAE는 시계열(TS) 데이터를 다루며, 전통적인 시계열 분석 방법에서 신호는 종종 추세, 계절성, 잔차 등의 특성으로 분해됩니다. 유사하게, TimeVAE는 디코더를 추세, 계절성, 기본으로 구성된 세 개의 역합성곱 층으로 분해합니다. 시계열 분석 방법과 결합하여, TimeVAE는 원래의 입력 TS 데이터를 재구성합니다. 또한, 인코더에서 TS 데이터를 처리하기 위해 합성곱 층이 사용됩니다. 시계열의 길이가 t일 때, TimeVAE의 입력은 {x1, x2, ···, xt}, 재구성은 {µx1, µx2, ···, µxt}, 잠재 변수는 z입니다. TimeVAE의 손실 함수는 인코더와 디코더의 매개변수인 Φ와 Θ를 포함하며, 손실 함수의 KL 발산에 가중치를 추가할 수 있습니다. 적절한 가중치는 잠재 변수가 가우시안 분포를 더 잘 따르도록 보장하며, 그 결과 가우시안 분포에서 샘플링된 생성물은 원래 데이터와 더 유사하게 됩니다.
본 논문에서는 생성된 데이터의 안정성을 보장하기 위해 시간 방법을 사용하여 데이터를 생성합니다. 실제로, 일부 데이터는 기존의 시계열 데이터이며, 비동적 공정과 비시계열 데이터가 있습니다. 산업 공정의 연속성 때문에, 이러한 비연속 데이터의 이웃 데이터는 함께 상태 변화를 나타냅니다. 따라서 비연속 데이터를 만날 경우, 이를 직렬화하면 데이터 양을 확장하고 드문 데이터 정보를 강화할 수 있습니다. 데이터 직렬화의 예는 그림 3에 제시되어 있습니다. 6개의 샘플을 포함하는 데이터 세트는 직렬화할 길이를 선택함으로써 다른 시리즈 데이터로 변환될 수 있습니다. 시퀀스 길이(t)가 2로 선택된 경우, 원래 데이터 세트는 5개의 시계열 샘플을 포함하는 데이터 세트로 변환됩니다. 이와 같이, 데이터 세트는 선택된 시계열 길이에 따라 다양합니다. 시퀀스의 길이는 데이터 수집의 빈도와 공정의 반응 시간을 종합적으로 판단해야 합니다. 또한, 수집된 데이터가 직접적으로 시계열 데이터인 경우, 공정 데이터를 직렬화할 필요가 없습니다. 섹션 3.2에서 직접 시계열 데이터에 대해 데이터 생성을 수행하기만 하면 됩니다.
이 부분에서는 TimeVAE를 사용하여 시계열(TS) 데이터 생성에 대해 설명합니다. TimeVAE의 인코더는 기본 VAE와 유사합니다. 디코더는 재구성을 생성하기 위해 시간적 구조를 가지고 있으며, 이 시간적 구조는 추세 블록, 계절 블록, 그리고 잔차 블록으로 구성됩니다. 디코더에서 N은 배치 크기를, D는 잠재 변수의 수를, T는 시간 단계의 수를 나타냅니다.
추세 블록에서는 모델링을 위해 단조 함수를 사용하며, p는 다항식의 차수를 가정합니다. 추세 행렬 Vtr은 매개변수 θtr과 시간 벡터 r의 거듭제곱 행렬 R에 의해 재구성됩니다. θtr은 다층 퍼셉트론(MLP)의 매개변수이며, r은 시간 벡터입니다.
계절 블록에서는 총 s개의 계절 패턴이 계절 모델링에 사용됩니다. 각 패턴은 계절의 수 m과 각 계절의 지속 시간 d 두 매개변수를 가지며, 이 매개변수들은 계절 인덱스 배열 k로 모아집니다. j번째 패턴에서 잠재 변수 z는 확장 계수 행렬 θjsn을 추정할 수 있고, 이는 입력의 각 시간 단계에 대한 특정 계절 인덱스 K와 관련된 계절 패턴 값 Vjsn과 연관됩니다.
TimeVAE의 잔차 블록은 기본 디코더로 사용되며, 이후 TimeVAE는 시계열 데이터 생성에 사용될 수 있습니다. 상세한 생성 단계는 다음과 같습니다:
TS 데이터를 획득합니다.
TimeVAE를 사용하여 특성을 추출하고 입력을 재구성합니다.
생성해야 할 샘플의 크기를 결정합니다.
필요한 샘플 크기에 따라 가우시안 분포에서 무작위로 샘플링합니다.
샘플링된 데이터를 TimeVAE의 디코더에 입력하고 해당하는 TS 데이터를 생성합니다.
원래의 불균형 시계열(TS) 데이터와 생성된 TS 데이터를 결합하여 균형 잡힌 증강 데이터를 만듭니다. 그런 다음, 증강된 데이터를 기반으로 시계열 데이터 증강 분류기(TSDAC)를 설계할 수 있습니다. TSDAC는 다층 퍼셉트론(MLP)과 소프트맥스를 사용하여 증강된 TS 데이터를 처리하고 다양한 고장으로 분류합니다. TSDAC의 상세 구조는 그림 6에 제시되어 있습니다.
증강된 시계열 데이터는 원래 문제를 균형 잡힌 시계열 데이터 분류 문제로 변환합니다. t가 1과 같을 때, TSDAC는 DAC로 저하된다는 점을 언급해야 합니다. 상세한 플로우차트는 그림 7에 제공되어 있습니다.
이 섹션에서는 테네시 이스트만(TE) 벤치마크 공정에 제안된 방법을 적용하여 그 효과를 입증합니다. TE 공정은 실제 화학 모델 시뮬레이션 플랫폼으로 널리 사용되어 왔으며, 분류 알고리즘의 효과를 검증하는 데에 자주 활용되었습니다. 이 공정에는 41개의 측정 변수와 11개의 조작 변수가 있으며, 이 중 첫 22개의 기본 공정 변수와 11개의 조작 변수를 모델 구축에 사용합니다.
이 연구에서는 정상 상태와 고장 1, 고장 2, 고장 6, 고장 12의 다섯 가지 상태를 선택하여 분석하였습니다. 학습 데이터 세트에는 500개의 정상 상태 샘플, 400개의 고장 1 샘플, 300개의 고장 2 샘플, 200개의 고장 6 샘플, 그리고 100개의 고장 12 샘플이 포함되어 있습니다. 테스트 데이터에는 정상 데이터 100개와 각 고장 데이터 100개씩 포함되어 있습니다.
분류 성능 평가에는 정확도, 재현율, F1 스코어가 사용되었습니다. 첫 번째로, 신경망을 소프트맥스와 직접 연결하여 불균형 고장 분류를 시도하였으나, 고장 12의 정확한 분류가 어려웠습니다. 그 후, VAE를 통해 데이터를 생성하는 DAC를 사용하여 불균형 데이터를 처리하였고, 고장 12의 분류 정확도가 크게 향상되었습니다.
마지막으로, TSDAC(t=10)을 사용하여 불균형 데이터를 처리하였습니다. 이 방법에서는 먼저 데이터를 시계열 데이터로 확장한 후, 불균형 TS 데이터에 TSDAC를 적용합니다. 이 접근 방식을 통해 고장 12의 분류 정확도가 더욱 향상되었습니다.