5주차:데이터 분석 & 예측 모델링
이번 5주차에 배운 건 데이터 전처리부터 KNN, 선형회귀, 결정트리 같은 다양한 예측 모델, 그리고 YOLO 이미지 분석까지였다. 실습으로는 타이타닉 생존 분석이랑 건강보험 분석을 진행했다. 사실 분석 방법론이나 분석을 어떻게 할지에 대한 부분은 전부터 좀 알고 있던 거라 어렵지 않아서 실습하는 데는 딱히 어려움이 없었다.
다른 조한테서 배운 거: 데이터 분석의 참신한 접근

근데 다른 조에서 분석을 내가 예상 못 한 방향으로 한 게 진짜 참신하고 좋았다. 대략적인 내용은 건강보험 지역코드를 통해 이용자를 지역별로 나누고, 건강 정보를 통해 점수를 매긴 거였다.

사실 건강이란 게 지역에 따라 편차가 생길 수 있는 부분이고, 지역별로 분석하면 유의미한 결과가 나올 가능성이 높다. 다만 그 조에 아쉬운 점이 있다면 점수 산정식을 좀 더 정규분포에 가깝게 설계했으면 좋지 않았을까 하는 아쉬움이 있었다. 그래도 건강정보 분석을 지역별로 나누고 점수 매긴 건 진짜 크게 한 수 배웠다.
그럼 우리 조는? 모델 성능 최적화와 앙상블

우리 조는 제대로 된 분석보다는 모델 방법론에 대해 분석을 진행했다. 수업 시간에 메인으로 다룬 KNN, Decision Tree, 로지스틱 회귀 모델이랑 스쳐 지나간 앙상블 모델을 위주로 어떻게 하면 모델 성능을 높일 수 있는지 보고서를 썼다.

아쉬운 부분이 있다면 수업 시간에 다루지 않은 앙상블 모델을 제대로 써서 더 세세한 비교를 하고 싶었는데, 시간이 부족해서 못 한 게 아쉬웠다. 그래도 앙상블 모델이 무조건 좋은 건 아니다. 상황에 따라 단순한 모델이 성능이 더 좋을 수도 있으니까, 상황에 따라 적절한 모델을 쓰는 게 중요하고, 분석을 통해 이걸 찾아가는 과정이 중요하다는 걸 알게 됐다.
스마트 팩토리, 그리고 YOLO 이미지 분석의 가능성
예전에 시작기술팀에서 개발품 다룰 때 진짜 이미지 데이터를 엄청 많이 분석했었다. 꽤 큰 회사인데도 여전히 이미지를 사람이 직접 보고 분석했단 말이야. Yolo 이미지 분석 배우고 나서, 아 이거 사람이 아니라 프로그램으로 간소화시킬 수 있겠다 싶었다. Nexiv 같은 반자동 이미지 측정 시스템이랑 융합하면 측정하고 분석하는 것까지 완벽하게 원클릭으로 할 수 있겠다는 생각이 들었다.

실제로 기판 패드에서 터진 도전볼 크기랑 개수 구하는 데 시간이 엄청 오래 걸렸었는데, YOLO 같은 이미지 분석으로 도전볼에 라벨링 작업하고, 특정 사이즈 이상 도전볼 개수 구하는 로직을 짜면 기업 입장에선 인건비랑 납기를 줄일 수 있고, 신뢰도랑 DOE 개선 횟수도 늘릴 수 있겠다 싶었다.

손에 쥔 게 너무 많다
지금은 미니 프로젝트 기간이 아니라 수업 진도에 여유가 꽤 있는 편인데, 현재 내가 쥐고 있는 것들이 좀 많아서 부담을 느끼고 있는 상황이다. 수업 외적으로 DACON, 네트워크 공부, 스마트 팩토리 AtoZ 설계, 특허 관련 내용 학습, ADsP 및 PCCE 자격증 시험까지 진짜 문어발식으로 할 일을 많이 만들었다.

하지만 뭐 어쩌겠습니까... 남은 교육 기간 동안은 열심히 해봐야지... 그래도 체력적으로 버티려고 항상 아침밥 먹기, 전략적으로 출퇴근하기 같은 나만의 체력 증진 전략을 실행 중이다. 그럼에도 현재 몸이 찌뿌둥해서 이번 주부터는 스트레칭으로 근육을 풀어줄 거다. 암튼 화이팅.
아 반말은 좀;;