캐글은 처음이라

skyepodium·2020년 2월 29일
0
post-thumbnail

타이타닉 문제 를 통해 기본적인 캐글 사용법에 알아봅시다.

처음 캐글에 대해 알게되고 해보려고 하면, 전부 영어여서 막막, 답답 ㅠㅠ 하나씩 알아봅시다.

1. 캐글

캐글이란 데이터 분석 대회입니다.
알고리즘의 경우 백준 온라인 저지, 코드 포스온라인으로 참가할 수 있는 대회 가 있습니다.

데이터 분석의 경우 온라인으로 참가할 수 있는 대회가 캐글입니다.

그리고, 모든것이 영어로 작성되어 있습니다.

2. 문제 찾기

화면 제일 상단 검색바에 titanic 을 검색해서 타이타닉 문제를 선택합니다.

타이타닉 문제는 기본 문제로 캐글 사용을 위한 가이드 문제로도 사용되고 있습니다.

3. 문제 읽기

Overview 탭의 Description을 눌러보면 어떤 문제인지에 대한 설명이 나옵니다.

머신 러닝을 사용하여 타이타닉 난파선에서 생존 한 승객을 예측하는 모델을 만듭니다.

4. 평가 방법

1) 목표

Evalutation을 눌러보면 평가 방법이 나옵니다.

승객이 타이타닉 침몰에서 살아남 았는지 예측하는 것은 당신의 임무입니다.
테스트 데이터의 각각에 대해 변수의 0 또는 1 값을 예측해야합니다.

즉, 타이타닉 문제는 테스트 데이터에서 각 승객의 생존여부를 예측하는 문제입니다.

2) 제출 형식

그리고, 제출 파일 형식에 대해 작성되어 있습니다.

정확히 418 개의 항목과 헤더 행이있는 csv 파일을 제출해야합니다. 추가 열 (ConsumerId 및 Survived 이외) 또는 행이있는 경우 제출에 오류가 표시됩니다.

따라서, 418개 행이 있는 test.csv의 데이터에 대해 Survived 항목을 작성해야합니다.
(test.csv에는 생존여부를 나타내는 Survived 항목이 없습니다.)

4. 결과 제출

.csv 파일 업로드를 통해 제출합니다.

1) 데이터

Data 탭을 누르면 3개의 데이터 소스를 볼 수 있습니다.
1) gender_submission.csv ( 성별을 사용한 예측, 샘플 예제 )
2) test.csv
3) train.csv

gender_submssion.csv를 누르고 옆에 나오는 설명은 다음과 같습니다.

제출 파일 형식에 대한 예시입니다.
예측은 오직 여성 탑승자만 살아남는다고 가정합니다.

이 샘플 파일 gender_submssion.csv 을 그대로 제출해 봅시다.

2) 제출

Submit Predictions 탭을 누르고 파일을 업로드 후 제출합니다.

문제별로 제출 횟수가 제한되어 있습니다. 타이타닉 문제의 경우 제출 횟수는 하루 10번입니다.

3) 결과 확인

제출 후 Leaderbord 탭으로 이동합니다.

점수는 제출의 정확성을 나타냅니다. 예를 들어, 이 대회에서 0.7 점을 획득하면 70%의 사람들의 타이타닉 생존을 올바르게 예측 한것입니다.

예측 정확성이 곧 점수입니다.

성별 만으로 예측한 결과는 대략 76.5% 이고, 13000등 입니다.

5. 정리

기본적인 사용법으로 웹사이트 구성, 문제 찾기, 읽고, 제출하는 방법에 대해 알아보았습니다.

오늘 내용을 정리해보면

  • 캐글은 데이터 분석을 위한 온라인 대회 플랫폼입니다.

  • 모든것이 영어로 작성되어 있습니다.

  • 문제에서 주어진 1) 목표, 2) 평가 방법에 따라 결과물을 작성합니다.

  • 작성한 결과물을 파일 업로드하고 평가받습니다.

이번 글에서는 결과물 작성방법이 생략되어 있습니다. 작성을 위한 개발환경 또는 노트북에 대해서는 다음글에서 알아봅시다.

profile
callmeskye

0개의 댓글