상관 관계와 머신러닝 조금 그리고 chatGPT 모델 합치기

Yellta·2024년 6월 5일
0

상관 관계와 머신러닝

상관 분석(Correlation Analysis)

변수들 간의 연관성을 파악하기 위해 사용하는 분석 기법 변수간 선형관계 정도를 분석한다.

두 변수 사이의 관련석을 파악하는 방법

머신러닝(Machine Learning)

기계가 문제를 통해서 풀이법을 익히고 이것을 시험에 응용해 내는것이다.

데이터를 통해 적절한 알고리즘을 찾아내고 알고리즘이 담긴 모델을 통해 예측으로 응용한다. 즉 알고리즘 모델로 미래의 결과를 예측해보는 것


오늘의 과제! 데이터 분석하기

오늘은 학교 과제로 데이터를 분석하는 날이다. (사실 귀찮았다.)

아무튼 chatGPT를 사용해서 데이터를 분석해보았다.

diabetes_dataset__2019.csv

20240605_실무데이터분석.mhtml

Kaggle에서 다운 받은 자료로 당뇨병 예측을 하는 과정을 만들어 보았다.

굉장히 흥미로운 것은 나는 당뇨병 예측을 수행하는 모델을 챗지피티에게 물어보고

거기서 최적의 모델 두 가지를 선택해 그 모델을 합쳐 완전히 새로운 형태의 모델을 만들어 버린것

이런 형태의 chatGPT사용법은 처음이라 굉장히 신기하고 또 흥미로웠다. 앞으로도 코드나 알고리즘을 짜는데 많이 적용할 것 같은 방법이기도 하다.

두 가지의 모델을 합치기 위해 수행한 과정

1. 분석 모델 추천 받기

chatGPT에게 물어 분석모델을 추천받았다.

2. 추천 받은 모델에서 최적의 답안을 제출할 수 있는 모델 두 가지 선택하기

추천 받은 모델들에서 내가 제출한 데이터셋을 분석하기 위해 최적인 분석 모델 두 가지를 선택했다.

3. 두 가지 모델을 각각 사용해보기

두 가지의 모델을 각각 사용해보고 장점/단점을 파악했다. 어떤 모델이 어떤 결과를 가져오고 그 모델의 단점은 어떤 모델이 해결할 수 있는지 파악했다.

4. 파악한 결과를 가지고 두 가지의 모델을 최적의 방안으로 병합해보기

앞서 나온 결과를 바탕으로 두 가지의 모델을 최적의 상태로 조합하여 사용하는 방안을 사용했다.

머신 모델을 합친 결과

두 가지의 모델을 합쳐달라는 나의 요청

해당 부분같은 경우는 모두 당뇨병이 아닌 경우에는 랜덤포레스트 기법을 사용할 수 없었다. 따라서
1. 랜덤 포레스트 모델을 사용해서 당뇨병 예측 여부를 따진다.
2. 당뇨병으로 예측된 데이터에서 그래디언트 부스팅 모델을 사용해 한번 더 추가적인 예측을 수행한다.

  1. 랜덤 포레스트 모델을 사용해서 당뇨병 예측 여부를 따진다.
  2. 당뇨병이 아닌 경우라고 예측한 경우, 그래디언트 부스팅 모델을 사용하여 재 검토한다.

일단 이렇게 전략을 짜라고 한 이유는
따로따로 전략을 분석을 수행했을 때

  • 랜덤포레스트 : 당뇨병일 확률을 더 높게 맞췄다.
  • 그래디언트 부스팅 : 당뇨병이 아닌 확률을 더 높게 맞췄다.

이와 같은 앞선 분석 결과에 따라서 다른 모델을 사용하여 예측하도록 했다.


이런 결과를 얻을 수 있었다!!!

REVIEW: chatgpt는 생각보다 아주 똑똑하다.

chatgpt는 생각보다 아주 많이 똑똑하다. 돈이 아깝다고 생각했는데 의외로 너무나도 잘 써먹을지도.

오늘 알아낸 문제 중에 두 가지의 모델을 합쳐서 새로운 형태의 모델로 만들어 내는 것이 너무나도 흥미로웠다. 또한 합친 형태의 모델이 긍정적인 결과를 가져왔고 꽤나 높은 정확도를 보여줬다는 것도 재밌었다. 물론 난 던지기만하고 gpt가 만들어 준거지만.

앞으로 잘 활용해보자!


데이터분석과 통계, 머신러닝의 차이는? : 인공지능 머신러닝 솔루션 다빈치랩스의 블로그 컨텐츠

머신 러닝 - 상관관계

profile
Yellta가 BE개발해요! 왜왜왜왜왜왜왜왜왜왜왜왜왜왜왜왜왜왜왜 가 제일 중요하죠

0개의 댓글