💡 AutoML 솔루션 데이터로봇을 이용하여 캐글 타이나틱 생존자를 예측하는 포스팅.
(📢주의) 저자는 연습용 컴피티션인 "타이타닉"을 했기 때문에 가능했지만 실제 캐글 컴피티션을 참가할 시 AutoML로 예측한 결과를 그대로 제출해서는 안된다. 엄연히 상금이 걸려있는 경진대회이기 때문에 부정 제출로 된다.(설사 높은 점수를 얻었다고 하더라도 향후 수상시 박탈되기 때문에 큰 의미는 없다)
이 한장으로 요약된다.
자동화된 기계 학습은 기계 학습을 실제 문제에 적용하는 작업을 자동화하는 프로세스입니다.
AutoML에는 원시 데이터 세트에서 시작하여 배포 준비가 된 머신 러닝 모델 구축에 이르기까지 모든 단계가 잠재적으로 포함됩니다. 위키백과(영어)
짧게 요약하면, 데이터의 전처리부터 결과까지 모두 컴퓨터가 “자동화”
하는 프로세스를 뜻 함.
사람은 데이터를 입력하고 나온 결과를 해석하는 부분만 하면 된다.
공식홈페이지 : https://www.datarobot.com/
소개 : Data Robot이란? DataRobot은 AI에 대한 접근을 민주화하기 위해 2012년에 설립되었습니다. 현재 DataRobot은 모든 사용자, 모든 데이터 유형 및 모든 환경을 위한 통합 플랫폼을 제공하여 모든 조직의 프로덕션 환경에 AI를 신속하게 제공한다는 비전을 가진 AI 클라우드 선두업체입니다.
데이터로봇은 엔터프라이즈급의 AutoML Tool로 2021 캐글 서베이에 따르면 사용율이 4.6% 전체시장점유율로는 낮은편이지만 3대 클라우드(AWS,GCP,Azure)의 상품들과 견주었을때 낮지 않은 점유율로 보여진다.
데이터로봇 공식문서
https://docs.datarobot.com/
데이터로봇을 도입하지 않더라도 무료로 제공하는 문서 내용들을 공부하여도 얻어갈 것이 정말 많다. 글로벌한 데이터사이언티스트 전문가분들이 만든 툴이니 그만큼 신뢰성이 높다고 생각. (Glossary페이지를 참고하여서 사내 데이터모델링 용어의 기준을 잡아도 좋다고 생각!)
데이터로봇 유니버시티
https://university.datarobot.com/
학생 대상으로 파격적인 가격인 $300(1년 구독)로 데이터로봇 기능을 사용가능한 플랜을 판매하는 것 같다. 별도 강의서비스도 제공하고 있으니 참고해봐도 좋을 것 같다. (프리미엄은 $1200)
커뮤니티
https://community.datarobot.com/
그 외에도 사용자 커뮤니티 등이 활발하여서 사용중에 어려운 점들이나 새로운 기능 릴리즈 등을 서로 공유하고 빠르게 도움을 받을 수 있을 수 있다.
가장 모델 학습에 영향을 미친 피쳐를 설명. 컴퓨터가 해석했을 때, Name > Sex > Class 순으로
중요도가 정해졌음.
컴퓨터는 우리가 보기에 알기 어려운 패턴이나 정보들을 추출함.
Name
같이 큰 의미없어 보이는 피쳐도 컴퓨터는 사람이 발견하지 못하는 패턴을 발견하는 것이 무척이나 신기했다. 그리고 컴퓨터가 발견해준 패턴을 토대로 좋은 영감을 얻어 사람이 새로운 피쳐들을 개발하는 가능성을 얻게됨.Garbage In Garbage Out
원칙을 따른다.