# kaggle

73개의 포스트
post-thumbnail

R code for Titanic - Machine Learning from Disaster

가장 유명한 캐글 입문용 대회, 타이타닉이다.일단 데이터 전처리를 하기 전에 train 데이터와 test 데이터의 Cabin, Embarked 변수에 ""로 표시된 레벨이 있었기 때문에 이를 NA로 바꾸었다.또한 Name 변수와 Ticket 변수는 일단 제외하고 (문

2021년 6월 7일
·
0개의 댓글
post-thumbnail

R code for Kaggle Tabular Playground Series - Mar 2021

다중선형회귀모형과 xgboost:reg linear 모형을 사용해 제출을 하였다.다중선형회귀모형은 auc값이 0.86860,xgboost:reg linear 모형은 0.86975가 나왔다. (소폭 성능 향상)전처리 방식으로는 매우 간단하게 문자형 cat 변수들을 범주형

2021년 6월 5일
·
0개의 댓글
post-thumbnail

R code for Kaggle Tabular Playground Series - May 2021

이번 데이터는 다항 분류 예측 유형이기 때문에 xgboost multi:softprob 모델을 사용하였다.연속형 변수들을 범주형 변수들로 바꾸기 위해 summary() 함수를 통해 전체적인 요약 통계량을 보았는데, 일부 변수에서 음수의 값이 존재하였기 때문에 이들의 값

2021년 6월 5일
·
0개의 댓글
post-thumbnail

[Python] Kaggle 데이터 소개 및 분석

Kaggle 데이터를 활용하여 최신 머신러닝 모델에 대해서 배워보자!

2021년 6월 2일
·
0개의 댓글

[Kaggle Day1] titanic 따라하기

1일차 노트북캐글 그랜드마스터 이유한님 튜토리얼을 따라 캐글 공부를 본격적으로 시작한다. kaggle을 처음 들어본 건, 지금으로부터 5년전인 2016년. 데이터를 하는 사람들은 캐글이라는 곳에서 경쟁을 한다는 말을 들었다. 그 때는 한창 네트워크에 관심을 가질 때라

2021년 5월 25일
·
0개의 댓글
post-thumbnail

Kaggle API 사용법

Kaggle API 를 사용해서 1. 데이터 받기, 2. 제출을 해봅시다.

2021년 4월 28일
·
1개의 댓글
post-thumbnail

Pandas 기초 -2

Summary Functions and Maps Summary functions out: count 129971.000000 mean 88.447138 ... 75% 91.000000 max

2021년 4월 25일
·
0개의 댓글

pandas 기초

Data Frame테이블을 dataframe이라고 하고 , row와 column으로 이루어져 있다. out:pd.DataFrame()은 데이터프레임 객체를 생성해내는 생성자이다. 딕셔너리 문법을 사용한다.SeriesSeries는 하나의 column만을 가지는 데이터 프

2021년 4월 25일
·
0개의 댓글
post-thumbnail

[캐글] Introduction to Machine Learning

Decision Tree2개 이상의 침실이 있는가를 기준으로 2가지 카테고리로 나뉜다. 데이터를 통해서 패턴들을 얻어내는 과정을 fitting or training이라고 한다. 모델이 fit하게 된 후에는, 새로운 데이터를 적용해보았을 때 예측된 값을 얻을 수 있을 것

2021년 4월 24일
·
0개의 댓글
post-thumbnail

2020 Kaggle Machine Learning & Data Science Survey 를 이용한 EDA 연습

서베이 데이터를 이용해 하나의 스토리를 만들어내는 컴피티션이지만 EDA 연습용으로 사용해보자. pandas나 matplotlib는 힘들게 배워놔도 이렇게 계속 써주지 않으면 까먹는다..

2021년 4월 21일
·
0개의 댓글

4/16 h1n1 vaccination classification(kaggle)

AI 부트캠프 31일차kaggle 대회behavioral_antiviral_meds - 항바이러스제를 복용했습니다. (이진) behavioral_avoidance - 독감 같은 증상을 가진 다른 사람들과의 긴밀한 접촉을 피했습니다. (이진)behavioral_face_

2021년 4월 16일
·
0개의 댓글

4/13 Decision Trees

AI 부트캠프 27일차h1n1 캐글 대회

2021년 4월 12일
·
0개의 댓글
post-thumbnail

LGBM

내가 바로 써먹기 위한 LGBM 속성, 야매 글입니다.자세한 설명은 생략한다LGBM은 Light GBM이다. Light하다는 것은 속도가 빠르고, 적은 메모리를 이용한다고 생각하면 된다. 당연히 GPU 가속기를 이용할 수 있다.GBM은 Gradient Boosting

2021년 4월 11일
·
0개의 댓글

Monthly Plan | 2021 - 04

1\. Project \- 목표 : Kaggle || 1일 1커널 (Github 1일 1+커밋) \- 룰 : 선 솔플, 후 클론 \- 기대하는 바 : 스스로 고민하고 분석하는 훈련 + 좋은 코드와 좋은 분석을 내 것으로 만드는 훈련2\. Study \-

2021년 4월 6일
·
0개의 댓글
post-thumbnail

[RISE] 4주차 수행내용

데이터 수집 및 전처리

2021년 4월 1일
·
0개의 댓글
post-thumbnail

[Kaggle] Titanic: Machine Learning from Disaster (4)

이번에 따라할 노트북은 Introduction to Ensembling/Stacking in Python이다. (1)에서 전반적인 플로우를, (2)에서 EDA와 feature engineering을, (3)에서 modeling과 여러 classifiers를 집중적으로

2021년 4월 1일
·
0개의 댓글
post-thumbnail

[Kaggle] Titanic: Machine Learning from Disaster (3)

이번에는 Titanic Top 4% with ensemble modeling 글을 따라할 참이다. 글을 쓰는 시점에서는 score가 0.78인데 더 올릴 수 있을지 확인해보자.이 글은 feature engineering을 하기 전에 outlier를 찾아 제거하는 과정을

2021년 3월 23일
·
0개의 댓글
post-thumbnail

[Kaggle] Titanic: Machine Learning from Disaster (2)

이번에 따라할 글은 EDA To Prediction(DieTanic)이다. EDA 부터 prediction까지의 과정을 설명한 글인데 처음 튜토리얼에서 EDA를 자세히 뜯어보았기 때문에 추가로 고려할만한 사항을 간단히 짚고 EDA 후 과정을 중점적으로 다루기로 했다.

2021년 3월 16일
·
0개의 댓글
post-thumbnail

[Kaggle] Titanic: Machine Learning from Disaster (1)

캐글 시작은 이유한님의 캐글 스터디 전용 커리큘럼으로 하기로 했다. 제일 처음은 Binary classification: Tabular data의 Titanic이다. Exploratory data analysis, visualization, machine learnin

2021년 3월 12일
·
0개의 댓글