시험 점수를 예측할 모델을 구축한다고 해봅시다 어떻게 해야 할까요?
- 먼저 제가 개발자이거나 데이터 과학자라면 제 학생들의 실제 시험 점수에 관한 모든 데이터를 수집할 겁니다.
- 그러면 10,000명의 학생에게 IT 분야의 경력이 몇 년인지 데이터베이스 경력은 몇 년인지 얼마나 강의를 들었는지 연습 시험은 몇 번이나 치렀는지 등을 조사해서 가능한 많은 데이터를 수집하고 해당 데이터를 라벨링 하겠죠.
- 어떤 열이 무슨 데이터와 대응하는지 정해야 하고 또한 점수도 필요합니다
- 여기서 점수는 진짜 시험에서 얻은 점수를 뜻합니다 누군가 670점을 넘지 못했다면 강의 과정을 완전히 끝내지 못해서겠죠?
- 누군가는 높은 점수로 통과했을 겁니다 그러면 890점이나 934점이 될 수도 있어요
- 다시 말해 학생마다 특정한 점수를 얻게 됩니다 그러면 이렇게 수집한 데이터를 기반으로 점수가 어떨지 예상할 수 있을 거예요
- 이제 라벨링을 합니다 실제로는 상당히 복잡한 작업이에요
- 다음은 머신 러닝 모델을 구축해야 합니다 과거 데이터를 통해 점수를 예측하는 모델입니다
- 머신 러닝 모델을 구축한 후에는 훈련 및 조정이 필요해요 이것도 꽤 어려운 부분이죠
- 데이터와 출력이 더 들어맞도록 점차 모델을 개선하는 거죠
- SageMaker는 전 과정에서 도움을 줍니다 라벨링, 구축, 그리고 훈련 및 조정까지요 그뿐만이 아닙니다 머신 러닝 모델을 생성해서 잘 작동된다고 합시다 그러면 이제 사용을 해야죠
- 바로 머신 러닝 모델을 배포 하는 거죠 그러면 새로운 데이터가 들어옵니다. - 예를 들어 여러분이 새로운 학생이면 제가 설문 조사를 합니다 IT 경력이 몇 년인지 AWS를 얼마나 다루었는지 강의는 얼마나 들었는지 등이요
- 그리고 여러분이 제공한 데이터를 가지고 앞서 생성한 머신 러닝 모델에 적용합니다
- 그러면 머신 러닝은 가지고 있는 데이터에 근거하여 이 학생이 906점으로 합격할 것을 예측합니다.
- 이 모든 과정, 즉 라벨링과 구축, 훈련 및 조정, 적용 모두 SageMaker에서 가능합니다