반도체 공정에서 품질 모니터링은 필수 요소
공정에서 데이터 분포가 바뀌기 때문에 이전 데이터로부터 생성된 예측 모델은 새로운 데이터에 맞지 않아 지속적인 업데이트가 필요
본 연구에서는 반도체 package test에서 중요 변수들의 변화를 탐지해서 업데이트하는 예측 모델을 제안
제시된 방법은 데이터 분포가 바뀌는 상황에서도 높은 정확도로 분류함
웨이퍼 형태의 제품에서 패키지 조립 공정을 거쳐 패키지 형태로 가공될 때 패키지 품질 보증검사 실시
품질 보증 검사 시 시간과 비용의 문제로 공정의 합격로트와 불량로트를 예측하는 모델을 만들어 적용하는 시도가 있었음
공정에서 관리하는 변수가 많고 데이터 분포가 지속적으로 변해 예측 성능의 저하가 일어남
-> 본 연구에서는 예측 모델의 성능 저하를 방지하기 위해 데이터 변화 탐지에 따른 예측 모델의 갱신 시점 제안
(1) 패키지 품질 보증 검사
로트로부터 표본을 추출 조사하여 합격여부 판별
1. 신뢰성 검사
2. 전기적 특성 검사
3. 실장 검사
4. 외관 검사
현재는 패키지 테스트 공정의 센서 데이터를 입력 변수, 품질 보증 검사의 실장 검사 결과를 출력 변수로 하여 예측 모델을 학습함
사후 확률에 영향을 미치는 변화가 발생하면 분류 모델의 성능이 저하됨
(2) 개념 변화 (Concept Drift)
시간 경과에 따른 데이터 분포의 변화를 개념 변화라 함
의사 결정을 위한 학습 알고리즘은 개념 변화가 이루어지는 환경에서도 작용해야 함
실제 변화(Real Drift) = 사후확률에 영향을 줌
가상 변화(Virtual Drift) = 결정 경계에 영향을 주지 않음
본 연구에서는 실제 변화를 탐지함으로 예측 모델의 갱신 시점을 결정하는 방법 제안
(3) 관련 연구
개념 변화 탐지 방법
개념 탐지 방법은 예측 모델의 온라인 오류률을 제어함
DDM(Drift Detection Method) : 각 데이터 샘플에 대한 예측은 베르누이 시행의 확률 변수이고, 오류 수는 이항 분포로 나타남. 오류율의 신뢰도 구간을 추정하고 변화를 추적하여 탐지.
-> 데이터의 변화가 천천히 일어난다면 탐지가 어려움
EDDM(Early Drift Detection Method) : 오류율 대신 거리 오류율 개념을 사용하여 개념 변화가 느려도 조기 탐지 가능
ECDD(Exponentially weighted moving averasge charts for Detecting concept Drift) :
오류율의 급격한 변화를 탐지하기 위해 지수 가중 이동 평균을 이용하여 오탐지율을 제어
이 방법들은 예측 결과를 0과 1로 묘사하여 개념 변화를 탐지하여 변화 패턴을 판단하는 정보 손실 발생
-> 본 연구에서는 입력 변수의 변수 중요도 변화를 모니터링 하여 개념 변화 탐지하고 탐지 시점에 예측 모델 갱신
(1) 시 구간별 데이터의 특질 추출
패키지 검사 데이터는 입력 변수가 196개로 고차원 데이터로 이에 적합한 stability selection 방법 사용하여 변수 중요도 계산
stability selection : lasso와 subsampling을 결합한 방법으로 무작위로 리샘플링 할 때 각 변수가 선택될 확률 출력. Local optima 문제가 개선되어 구조 추정에 유리
(2) 시 구간별 거리 측정
각 데이터 사이의 거리는 일반적으로 사용되는 거리 척도인 유클리드 거리를 사용하여 계산
두 시점 T1, T2간의 데이터 변화의 크기를 각 변수의 중요도의 차이의 유클리드 거리 합으로 사용
(3)예측 모델 갱신
미리 설정해둔 임계값을 넘어가는 유클리드 거리 값이 산출되면 모델을 갱신하는 트리거로 사용
(1) 대상 데이터
H사의 2018년 2,3,4,5월 패키지 테스트 공정과 품질 보증 검사 공정에서 수집된 데이터 사용
입력 변수 Xi = 패키지 테스트 공정의 검사 항목 별 불량률로 196개
출력 변수 Y = 품질 보증 검사의 로트 판정 결과로 불량은 1, 합격은 0으로 표시
(2) 실험 환경
1. T1 시점의 데이터 분포를 기반으로 예측 모델을 학습하고, 변수의 중요도 VT1 계산
2. 거리 측정의 기준점으로 VT1으로 두고, 다음 시점의 거리 중요도 VT2 계산하여 변화 크기 판단
3. 반복적으로 유클리드 거리를 측정하여 변화가 임계점을 초과하면 예측 모델을 갱신하고, 측정 기준값 변화
4. 다시 반복적으로 측정 변화 크기를 모니터링
(3) 성능 평가 및 결과
AFR(Actual Fail Ratio) - 알파 : 불량으로 판정될 확률이 높은 알파%의 로트에 포함될 실제 불량의 비율
현업에서는 통상적으로 AFR - 50을 통해 성능 평가를 진행함
본 실험에서는 기존 수집 데이터를 기반으로 선행 지표에 대한 평가 진행 및 임계점 실험적으로 정함
-> 예측 모델은 유클리드 거리 2.0 이내에서 좋은 성능을 보여주어 변화의 임계점으로 설정. 그러나 논리적인 근거가 필요하여 추후 연구를 통해 보강 예정
T1, T2, T3, T4, T5, T6 에 대해 기존 방법과 비교하여 변화를 측정하였음
기존 방법
DDM : 모델 성능이 급변하는 T4에서만 개념 변화 탐지
EDDM : T4 및 이후 모델 성능 점진적으로 변화하는 T5 T6 에서도 개념 변화 탐지
본 연구에서 제안한 방법
T3에서 개념 변화 탐지하여 예측 모델 갱신으로 높은 성능 유지
-> DDM, EDDM과 다르게 T4에서 업데이트 한 경우 예측 성능이 낮아지는 위험구간이 발생되지 않음
변수 중요도 변화를 모니터링하여 실제 변화의 발생 여부를 감지하고 예측 모델을 갱신하는 프로세스를 적용함으로써 예측 성능이 지속적으로 유지 가능
본 예측 모델을 활용하여 불량 발생 확률이 높은 로트 선별 검사를 통해 품질 문제 발생 확률을 낮출 수 있을 것으로 기대함
판단 기준을 정하는 논리적인 근거를 추후 연구를 통해 보강 필요