심화 프로젝트_0304

3eo·2026년 3월 4일
  • 전처리 완료
  • 이상치는 일단 놔두기로 결정 (※ 질문 리스트 첫 번째 항목 멘토링 필요)
  • 시간 관계 상 Product type별로 나눠서 보기보다는 불량 발생 자체에 더 초점을 두고 분석하기로 결정

→ 제품별로 설정값이 달라질 것.. Product type도 독립변수로 넣는다면 그것도 하나의 추세로 나올 것이므로 (범주형 원핫 인코딩: 머신러닝 내부적 분류) 크게 문제는 없을 것 같음. 그런데 독립변수로 넣지 않는다면 불량 요인을 판단하는 데 약간 모호해질 수 있음. 제품별 불량요인을 판단하는 건 예측(미리 경고 가능)을 목표로 하기도 해서, 일반적으로는 type을 나눠서 eda 자체도 분석하고 모델링하는 게 바람직함

📌

질문 리스트

이상치 관련 : (예시) 비스킷 두께가 0인 게 상식적으로 말이 되지 않는다고 생각하는데 가능한 일인가요? 이 경우에 불량품이 발생하지도 않아서 더욱 이상하게 느꼈습니다.

이상치가 얼마나 극단적인지 봄

평균 대비 얼마나 차이나는가? ⇒ velocity2는 최소가 -6% 최대는 -25%. 여기까진 괜찮은 것 같은데 다른 컬럼들이 평균 대비 최소 최대 값이 굉장히 이상하다고 생각

단위가 mm가 맞는가 ? 맞음

정수로 처리된 걸로 보아 1mm 이하면 그냥 0으로 처리했을지도 모르겠다는 생각(소수점이 없는 상태)

제품 유형별로 나누지 않고 분석을 한 뒤 모델링을 하면, 그렇게 하지 않았을 때와 다른 결과가 나오는가요?

Product type이 비슷한 규격이면 괜찮은데, 예를 들어 나사를 만드는 작업과 볼트를 만드는 작업은 제품이 아예 다름. 별개로 취급하고 분석해야 조금 더 제품에 맞는 불량 요인을 판단할 수 있음/ 제품을 섞어서 분석하면 큰 틀에서는 분석가능해도 모호성이 커져서 어떤 제품에 적용할지가 애매해짐. 타입별로 분석하는 게 어찌보면 당연한 것

머신러닝 프로세스 하나만 만들면 프로덕트1로 하든 2로 하든 결과 뽑는 건 시간적으로 똑같기 때문에 부담가지지 않아도 됨

EDA도 타입별로 분석하는 게 중요할 것 같음

타입을 나눠서 볼 때와 나누지 않아서 볼 때의 이상치가 달랐는데 그럼 처리를 어떻게 하는 게 좋을까요?

타입별로 나눠서 봤다면 히스토그램 상 두 개의 봉으로 나오는 경우가 생겼을 것

정석대로 하자면, 이상치도 각각 처리해야 함

아예 별개의 두 모델을 만든다고 생각하면 됨

워크프로세스는 동일할 것

히스토그램에서 type이 나뉘는 변수가 아닌 경우인데도 쌍봉 형태가 나타나는데 이게 가능한건가요?

가능은 함

그냥 받아들이고 분석하기…

설정값으로 인한 원인인지, 원래 그런 특징을 가지는지 명확한 답변은 못하겠으나 분석하는 것에 큰 문제가 없음

Q-Q Plot 그래프에서 직선에서 완전 떨어진 값들이 존재하면 로그 변환하셨음

분포도(히스토그램)도 같이 보기. 오른쪽 꼬리가 길면서 값 차이가 !지수적으로! 큰 경우 로그 변환하면 좋음→선형변환

보통 소득 분포나 부동산 분포에서 그런 상황 발생.

일반적으로 센서 데이터에서도 로그변환 많이 쓰기도 하는데, 그대로 써도 괜찮을 것

SHAP ← 특성 중요도 파악하는 굉장히 좋은 머신러닝 기법

📌

멘토링

이상치 처리는 분포도(시각화 해서)도 보는 것이 좋음

IQR 넘었다고 무조건 제거하지는 않아도 됨.

트리 기반 모델은 웬만하면 이상치에 강건해서 이상치를 살려도 성능에 큰 문제는 없을 듯

극단적으로 튀는 값은 잡아줄 필요가 있고, 아닌 것들은 그냥 남겨도 괜찮을 것 같음

시계열로 바라보는지, 타겟 하나 당 shot 하나로 바라보고 있는지?

→ 데이터에 대한 이해도가 굉장히 중요함. 이것에 따라 머신러닝을 어떻게 구축할지 중요

→ 타겟 하나 당 여러 개의 feature 행들이 있다면 그건 시계열!

→ 타겟 하나 당 하나의 feature로 되어있으면 일반적으로 배웠던 분류로 머신러닝 구성 가능

특징으로 쓰는 것도 타겟으로 쓰는 것 간 매핑을 매우 중요함

미리 알려주자면, 이 데이터셋은 시계열 데이터가 아니긴 함

그래도 제대로 1대1 매핑이 되는지 안되는지 확인해보기

일반적으로는 type을 나눠서 이상치 분석부터 EDA 분석 ~ 모델링까지 하는 게 바람직함

product 1을 분석하는 팀과 product 2를 분석하는 팀으로 나눠서 프로젝트 진행하는 것도 추천

[ SHAP ] ← 특성 중요도 파악하는 굉장히 좋은 머신러닝 기법

시간이 남으면 반드시 해보면 좋겠음

모델 최적화(하이퍼파라미터 튜닝)는 후차적으로 미뤄두기

중요한 파트는 아님. 시간이 남으면 할 파트. 이거 한다고 해서 성능이 1, 2% 오르진 않음

모델 완성과 워크 프로세스 생성이 제일 중요

0개의 댓글