AICE - Basic 준비

이율곡·2023년 6월 4일
0

AI

목록 보기
1/4
post-thumbnail

AICE - Basic

이 시험은 AI에 대해 기본적인 지식을 얻는 시험이다. 가장 낮은 수준의 AI 시험이기 때문에 코딩은 필요하지 않고 버튼만으로 AI를 모델링 할 수 있다.

내가 AI를 추가적으로 공부하는 이유는 미리 대비하고 준비하기 위해서다. 그래서 기본적인 AI 지식을 익히고 다룰 줄 아는 사람이 되려고 한다. 이번 글을 통해서 AIDU ez를 사용하여 AI를 모델링하는 연습을 하려 한다.

의료보험료 예측하기

이번에 AI를 공부하면서 캐글(Kaggle)이라는 데이터 학습사이트를 알게 되었다. 이곳에서 다양한 데이터를 받고 AI 모델링 연습을 해보고자 한다.

https://www.kaggle.com/datasets/tejashvi14/medical-insurance-premium-prediction

위의 페이지에서 데이터를 가져와 통해 의료보험료를 예측하는 AI를 만들었다. 지도학습을 이용하여 label를 추출했다.

1. 기초정보 분석하기

기초정보를 분석한 사진이다. 986개의 데이터를 갖고 있고, 따로 결측치를 갖고 있지는 않다. 그렇기 때문에 따로 데이터 가공을 할 필요는 없다. 또한 칼럼은 대표적으로 나이, 당뇨, 수술이력, 가족력, 보험료 등 총 11가지의 칼럼이 존재한다.

데이터 유형은 숫자타입의 유형만 11가지로 다른 유형은 존재하지 않다. 그러나 여기서 조심해야 할 점은 숫자타입이라 할지라도 당뇨와 같이 없다(0)과 있다(1)로 나타낼 수 있기 때문에 이러한 점을 유의할 필요가 있다.

2. 히트맵

히트맵을 통해 구하고자 하는 의료보험료와 다른 칼럼과의 상관관계를 알 수 있다. 히트맵에서 색이 붉은 색에 가까울수록 양의 관계(+) 푸른 색에 가까울수록 음의 관계(-)에 가깝다. 또한 색이 짙으면 짙을수록 강한 관계이다.

이 사진에서 우하향하는 가장 진한 색은 서로 자신 컬럼을 참고하기 때문에 이렇게 나타한다. 내가 알고 싶은 것은 의료보험료와 다른 컬럼과의 상관관계기 때문에 PremiumPrice를 보면 된다. 히트맵에서는 Age가 가장 진한 상관관계를 보인다.

3. 데이터 가공 / 데이터 학습

이 데이터는 결측치나 이상치가 없었기 때문에 따로 데이터를 가공하지는 않았다.

위의 사진은 데이터를 학습할 때의 파라미터들이다. 내가 알고자 하는 것은 의료보험료기 때문에 Output 값으로 지정했고, 유형은 값이기 때문에 numerical로 했다. 여기서 활성함수를 sigmoid로 해서 학습을 했을 때 Early Stop에 걸리지 않고 Epochs를 100회 수행했다.

이렇게 함으로써 의료보험료를 예측하는 AI모델링을 완료했다. 다음으로는 이를 어떻게 활용하는지 알 수 있다.

4. 활용

우선 변수영향도를 보면 의료보험료에 가장 많은 영향을 준 3부분은 수술이력과 장기이식?, 만성질환이다. 이 부분이 강할수록 의료보험료에 큰 영향을 준다는 걸 알 수 있다.

시뮬레이션을 통해 어떤지 알 수 있다. 밑의 사진 두 장이 예이다.


첫 번째 사진은 55세에 질환이 없는 사람의 보험료 예측이다. 두 번째 사진은 같은 나이에 수술이력이 있는 사람의 보험료 예측이다. 어림잡아 3000$ 정도가 차이가 남을 파악할 수 있다.

마무리

마지막으로 Test를 통해 의료보험료 예측이 잘되었는지 알 수 있다.

정리하기

23년 6월 17일에 시험이 있다. 그전까지 하루에 하나씩 AI모델링을 해보려 한다. 지금은 다 알지는 못하지만 공부하면서 어떤 함수를 활용해야 하는지, 어떤 모델링을 해야 하는지 더 깊이 이해한 상태로 진행하고자 한다.

profile
음악을 좋아하는 사람이 음악을 만들 듯, 개발을 좋아하게 될 사람이 쓰는 개발이야기

0개의 댓글