eda 굳이 안 해도 되지 않나.? 머신러닝은 일단 해봐야 아는 경우가 강함
실무에서는 매우 중요함
데이터를 보면서 정보를 얻고, 예상치 못한 데이터(이상치)는 eda로 잡아낼 수 있음
데이터 중 머신러닝 결과에 critical하게 영향을 주는 변수가 보일수도
심하게 일그러진 분포, 박스플롯에서 이상치가 확 튀는 것들 --> eda
다중공선성 확인도 eda (상관계수 살펴보기)
사용할 변수 중 필요없는 것 빼기
데이터 개수와 분포 이정도면 단순한 모델 써도 되겠네 -> 단순 모델은 해석하기 좋음
데이터가 너무 복잡해보이네 -> 복잡한 모델로 결과를 올리는 게 좋음
머신러닝 하고나서 시각화 하고, 머신러닝 발전시키기도 가능!
validation으로 계속 바꿔가는 건 상관없음
test는 진짜 실전 -> test를 보면 그대로 끝나야함. 마음에 안 들면 새로운 test data로 얻어서 다시 모델을 만들고 해야 함.
탐색적 데이터 분석(EDA)을 통해 공정 변수의 분포와 이상치를 확인하고, 정상 제품과 불량 제품 간 공정 조건의 차이를 분석하였다. 또한 t-검정과 ANOVA 분석을 통해 일부 공정 변수에서 불량 유형 간 통계적으로 유의한 차이가 존재함을 확인하였다. 이러한 결과는 공정 변수와 불량 발생 간 비선형적 관계 및 변수 간 상호작용 가능성을 시사한다. 따라서 본 연구에서는 이러한 복잡한 관계를 효과적으로 학습할 수 있는 트리 기반 앙상블 모델인 XGBoost를 활용하여 불량 유형을 분류하였다.
/
변수 중요도나 그런 걸 보고, 지금 단계에선 넣어보고 돌려본 다음 결정하기
다이캐스팅 공정에서 발생하는 다양한 불량 유형(미성형, 박리, 기공, 평탄, 개재물 등)을 자동 예측하는 머신러닝 모델을 개발 이 목표인데
지금 불량 유형을 크게 3가지로 범주화해서 봄. 불량 유형 중에 발생 횟수가 한 번이거나 극소량인 경우 때문에 범주화해보기로 한 건데 괜찮은가? 지금 제품1과 제품2로 파일을 나눠서 각 제품에 맞는 모델을 구현하는 중인데 심지어 제품1에서는 범주가 2개 밖에 안 생김
다 살리는 게 제일 좋긴 한데, 일차적으로는 이진분류를 하고 그 다음 단계로 라벨링 다 살려서 해볼수는 있음!(근데 이제 딥러닝...)
다중라벨을 할거다! 멀티라벨을 변형해서 0, 1, 2, 3으로 가능