# kaggle

128개의 포스트
post-thumbnail

1.2 Before deep learning: a brief history of machine learning

Probabilistic modeling Early neural networks Kernel methods Decision trees, random forests, and gradient boosting machines Back to neural networks

2일 전
·
0개의 댓글
post-thumbnail

1.2 의사결정나무로 간단한 분류 예측 모델 만들기

링크: https://www.kaggle.com/uciml/pima-indians-diabetes-databasePregnancies : 임신 횟수Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도BloodPressure : 이완기 혈

6일 전
·
0개의 댓글
post-thumbnail

신용 카드 고객 데이터 분석 3부

이번 시간에는 범주형 변수인 Attrition_Flag를 종속변수로 설정한 Classification model 중 XGboost model을 모델링하고 성능까지 측정해보는 시간을 가지려고 합니다.먼저 전처리가 완료된 데이터를 7:3 비율로 훈련용 데이터(train)와

2021년 8월 30일
·
0개의 댓글
post-thumbnail

신용 카드 고객 데이터 분석 2부

1. 고객의 활동 여부와 고객의 나이 > 이탈 고객의 나이 분포와 잔존 고객의 나이 분포가 거의 비슷합니다. $Attrited Customer Anderson-Darling normality test data: X[[i]] A = 1.7156, p-value

2021년 8월 29일
·
0개의 댓글
post-thumbnail

신용 카드 고객 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/sakshigoyal7/credit-card-customers이번 시간에는 Kaggle의 Credit Card customers dataset을 가지고 EDA를 진행하겠습니다. (신용 카드를 이

2021년 8월 28일
·
0개의 댓글
post-thumbnail

개인 의료 비용 데이터 분석 3부

혹시 3부에서 다루는 데이터에 대해 자세히 알고 싶으신 분들은 개인 의료 비용 데이터 분석 1부와 2부를 봐주시면 감사하겠습니다 ^^1부와 2부에서는 charges 변수(개인 의료 비용)를 중심으로 다른 변수들 간의 관계에 대해서 EDA를 진행했었습니다.이번 시간에는

2021년 8월 26일
·
0개의 댓글
post-thumbnail

개인 의료 비용 데이터 분석 2부

8\. 나이 그룹에 따라 개인 의료 비용은 유의미한 차이를 보일까?age 변수는 총 5개의 level(그룹)을 가진 범주형 변수이기 때문에 3개 이상의 그룹 간 평균 차이를 검정하는 일원분산분석이 적합할 것 같습니다.일원분산분석을 통해 나이 그룹에 따라 개인 의료 비용

2021년 8월 25일
·
0개의 댓글
post-thumbnail

개인 의료 비용 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/mirichoi0218/insurance이번 시간에는 Kaggle의 Medical Cost Personal Datasets를 가지고 전반적인 EDA를 진행해보려고 합니다.먼저 데이터를 불러온 다

2021년 8월 25일
·
0개의 댓글
post-thumbnail

미국 고등학생 시험 점수 데이터 분석 2부

3-3. 부모의 학력 수준에 따라 학생들의 수학, 읽기, 쓰기 성적에 차이가 있을까?parental.level.of.education 변수는 6개의 level(그룹)을 가지고 있기 때문에 일원분산분석을 시행하되, 마찬가지로 종속변수가 정규성 가정을 위배하였기 때문에

2021년 8월 22일
·
0개의 댓글
post-thumbnail

미국 고등학생 시험 점수 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/spscientist/students-performance-in-exams이번에는 학생 점수 데이터셋을 가지고 EDA(탐색적 데이터 분석)를 진행해보려고 합니다.먼저 데이터를 불러온 다음, 중

2021년 8월 22일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 15

Kaggle Challenge 15

2021년 8월 17일
·
0개의 댓글

프로젝트 4 (bike sharing)

아무리 예측모델이라고 해도 꽤나 중요한 점은 모델도 맞지만 데이터 전처리다.기존 데이터에서의 특성을 새롭게 조합하여 새로운 특성을 만들거나, 차원축소 등의 데이터 전처리, 또는 필요없는 데이터를 지울 수 있다.corr을 통해 상관계수를 파악하여 0에 가까운 상관성이 없

2021년 8월 17일
·
0개의 댓글
post-thumbnail

Instacart 데이터 EDA

데이터는 총 5개의 csv 파일로 나누어져 있다.우선 각 파일을 아래의 SQL조건으로 합쳤다.데이터에서 재품 이름을 가뎌오지 않았다.총 13개의 variable이 만들어졌다.inner join 을 했을시 데이터 길이가 1,048,576에서 422,287이 되었다.데이터

2021년 8월 17일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 14 - XGBoost

For much of this course, you have made predictions with the random forest method, which achieves better performance than a single decision tree simply

2021년 8월 16일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 13 - Pipelines

MAE: 160679.18917034855

2021년 8월 16일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 12 - Missing Values

Kaggle Challenge 12 - Missing Values 1. Housing Prices Competition 1) Setup 2) Pandas Step 1: Preliminary investigation 4) Solution

2021년 8월 14일
·
0개의 댓글
post-thumbnail

Mini EDA Review_part 2

썸네일 이미지 출처: https://www.dataapplab.com/how-to-be-top-10-at-kaggle-competition/kaggle-logo-gray-300/ EDA Review 04. 3차 컬럼(column) 선별 이전 포스트에서 마지막 부

2021년 8월 14일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 11 - Machine Learning Competitions

Housing Prices Competition for Kaggle Learn Users

2021년 8월 14일
·
0개의 댓글
post-thumbnail

Mini EDA Review_part 1

썸네일 이미지 출처: https://www.kaggle.com/brand-guidelines 미니EDA 프로젝트 리뷰 지난 번 웹크롤링 Toy 프로젝트에 이어서 두 번째 프로젝트이다. EDA로서는 첫 프로젝티이기도 하다. 머신러닝을 이용하여 분석 및 예측까지 가지

2021년 8월 14일
·
0개의 댓글
post-thumbnail

Kaggle Challenge 10 - Underfitting and Overfitting

There are a few alternatives for controlling the tree depth, and many allow for some routes through the tree to have greater depth than other routes.

2021년 8월 12일
·
0개의 댓글