오늘은 하루종일 팀 프로젝트를 하며 시간을 보냈다.
이번 프로젝트는 제조 데이터를 사용한 연구 분석 프로젝트로, 실제 제조업 데이터를 강사님께서 가공하여 공유해주셨다. 해당 데이터 중 원하는 데이터를 골라 문제를 정의하고 가설을 세운 뒤 EDA, 데이터 전처리, 피처 엔지니어링, 통계 분석, 머신러닝 등 각 팀별로 정한 주제에 맞춰 분석 및 모델링을 하여 인사이트를 도출하는 프로젝트다. 도출한 인사이트로 해당 데이터 및 분석 주제에 대해서 설명을 하고, 한계점이나 결론을 명확하게 도출해야 된다.
우리 팀은 '용선 품질(Si-S) 예측을 통한 운영 최적화'를 주제로 삼고 가설을 세우고 EDA 등 분석을 시작했다. 그런데 분명 고로 내부의 온도 관련 피처들과 높은 상관관계가 있을 것으로 예상했는데 의외로 크게 상관관계가 있는 피처가 많이 없었다. 그래도 0.7 정도의 상관관계가 있는 피처가 있어서 모델링을 할 수 있겠다고 생각했지만 그 생각은 오래가지 못했다. 왜냐하면 해당 피처는 데이터 누수가 발생한 피처였기 때문이다. 그래서 데이터 누수가 발생한 피처를 제거하고 모델링하니 당연하게도 테스트 데이터에 대한 결정계수가 0.1도 안 나왔다.
처음에는 뭔가 잘못했나 생각이 들었는데 이것 자체가 결론일 수 있겠다는 생각이 들어
현재 외부 조작 변수만으로는 Si/S 예측이 불가능하며,
고로 내부 상태 데이터(열 수준·탈황 반응 관련)를 추가 확보해야 예측 모델 구축이 가능하다.
라고 최종 결론을 지었다. 추가로 기업에 제시할 필요한 피처 등에 대해서도 정리하며 분석은 마무리되었다.
오늘 분석을 하고 내일 바로 발표를 하는 꽤 타이트한 일정의 프로젝트다. 그래도 지금까지는 어느 정도 정답이 있는 데이터를 사용해서 실습하다 보니 이렇게 데이터를 못 쓰는 경우도 있다는 사실을 잊고 있었던 것 같다. 지금은 클로드를 사용해서 PPT를 제작하고 있는데 역시나 토큰이 너무 많이 소비돼서 다음부터는 그냥 직접 PPT를 만들까 생각 중이다.