변수들 간의 연관성을 파악하기 위해 사용하는 분석 기법 변수간 선형관계 정도를 분석한다.
두 변수 사이의 관련석을 파악하는 방법
기계가 문제를 통해서 풀이법을 익히고 이것을 시험에 응용해 내는것이다.
데이터를 통해 적절한 알고리즘을 찾아내고 알고리즘이 담긴 모델을 통해 예측으로 응용한다. 즉 알고리즘 모델로 미래의 결과를 예측해보는 것
오늘은 학교 과제로 데이터를 분석하는 날이다. (사실 귀찮았다.)
아무튼 chatGPT를 사용해서 데이터를 분석해보았다.
Kaggle에서 다운 받은 자료로 당뇨병 예측을 하는 과정을 만들어 보았다.
굉장히 흥미로운 것은 나는 당뇨병 예측을 수행하는 모델을 챗지피티에게 물어보고
거기서 최적의 모델 두 가지를 선택해 그 모델을 합쳐 완전히 새로운 형태의 모델을 만들어 버린것
이런 형태의 chatGPT사용법은 처음이라 굉장히 신기하고 또 흥미로웠다. 앞으로도 코드나 알고리즘을 짜는데 많이 적용할 것 같은 방법이기도 하다.
chatGPT에게 물어 분석모델을 추천받았다.
추천 받은 모델들에서 내가 제출한 데이터셋을 분석하기 위해 최적인 분석 모델 두 가지를 선택했다.
두 가지의 모델을 각각 사용해보고 장점/단점을 파악했다. 어떤 모델이 어떤 결과를 가져오고 그 모델의 단점은 어떤 모델이 해결할 수 있는지 파악했다.
앞서 나온 결과를 바탕으로 두 가지의 모델을 최적의 상태로 조합하여 사용하는 방안을 사용했다.
해당 부분같은 경우는 모두 당뇨병이 아닌 경우에는 랜덤포레스트 기법을 사용할 수 없었다. 따라서
1. 랜덤 포레스트 모델을 사용해서 당뇨병 예측 여부를 따진다.
2. 당뇨병으로 예측된 데이터에서 그래디언트 부스팅 모델을 사용해 한번 더 추가적인 예측을 수행한다.
일단 이렇게 전략을 짜라고 한 이유는
따로따로 전략을 분석을 수행했을 때
이와 같은 앞선 분석 결과에 따라서 다른 모델을 사용하여 예측하도록 했다.
이런 결과를 얻을 수 있었다!!!
chatgpt는 생각보다 아주 많이 똑똑하다. 돈이 아깝다고 생각했는데 의외로 너무나도 잘 써먹을지도.
오늘 알아낸 문제 중에 두 가지의 모델을 합쳐서 새로운 형태의 모델로 만들어 내는 것이 너무나도 흥미로웠다. 또한 합친 형태의 모델이 긍정적인 결과를 가져왔고 꽤나 높은 정확도를 보여줬다는 것도 재밌었다. 물론 난 던지기만하고 gpt가 만들어 준거지만.
앞으로 잘 활용해보자!