# EDA

65개의 포스트
post-thumbnail

[EDA] 02. 서울시 범죄 현황 분석

서울시 범죄 현황 분석을 해보자!

3일 전
·
0개의 댓글
post-thumbnail

[EDA] 01. 서울시 CCTV 현황 분석

서울시 CCTV 현황분석을 해보자!

4일 전
·
0개의 댓글
post-thumbnail

[CodeStates](python) EDA (Exploratory Data Analysis)

데이터를 분석하기 전에, 직관적으로 데이터를 이해하는 과정(df1 만 예시로 불러올 예정)Transposed 된 row와 column첫째줄 0,1,2..가 아닌 주요재무정보를 header로 바꾸고 싶을 때!

2021년 9월 15일
·
0개의 댓글
post-thumbnail

[TIL] EDA

xls.sheet_names엑셀 파일 열 때 sheet name 확인하기 띄어쓰기 있을 수 있음

2021년 9월 9일
·
0개의 댓글
post-thumbnail

신용카드 사용자 연체 예측 EDA_Part3

7. Testing set 데이터 변환 7.1 testing set 불러오기 7.2 소득에 의한 변수 지정 7.3 연령 구간 설정 7.4 신용카드 사용 연수 7.5 근무 연수값 지정 8. Training & Testing sets 저장하기

2021년 8월 30일
·
0개의 댓글
post-thumbnail

신용카드 사용자 연체 예측 EDA_Part2

여성고객이 남성고객보다 많다.성별에 따른 신용등급은 큰 차이를 보이지 않는다.연령에 따른 신용 비율이 뚜렷이 보여주는 차이가 없다신용카드는 사용 연수가 증가 할 수록 신용등급률이 떨어지는 것으로 보인다.신용카드 사용 첫번째 1년이 지날때 비율이 가장 많이 떨어지고 그

2021년 8월 30일
·
0개의 댓글
post-thumbnail

신용카드 사용자 연체 예측 EDA_Part1(Setting)

DACON 신용카드 사용자 연체 예측 AI 경진대회Link: https://dacon.io/competitions/official/235713/data1.주제신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측하는 알고리즘 개발 2.배경신용카드사는 신

2021년 8월 30일
·
0개의 댓글
post-thumbnail

신용 카드 고객 데이터 분석 2부

1. 고객의 활동 여부와 고객의 나이 > 이탈 고객의 나이 분포와 잔존 고객의 나이 분포가 거의 비슷합니다. $Attrited Customer Anderson-Darling normality test data: X[[i]] A = 1.7156, p-value

2021년 8월 29일
·
0개의 댓글
post-thumbnail

신용 카드 고객 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/sakshigoyal7/credit-card-customers이번 시간에는 Kaggle의 Credit Card customers dataset을 가지고 EDA를 진행하겠습니다. (신용 카드를 이

2021년 8월 28일
·
0개의 댓글
post-thumbnail

개인 의료 비용 데이터 분석 2부

8\. 나이 그룹에 따라 개인 의료 비용은 유의미한 차이를 보일까?age 변수는 총 5개의 level(그룹)을 가진 범주형 변수이기 때문에 3개 이상의 그룹 간 평균 차이를 검정하는 일원분산분석이 적합할 것 같습니다.일원분산분석을 통해 나이 그룹에 따라 개인 의료 비용

2021년 8월 25일
·
0개의 댓글
post-thumbnail

개인 의료 비용 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/mirichoi0218/insurance이번 시간에는 Kaggle의 Medical Cost Personal Datasets를 가지고 전반적인 EDA를 진행해보려고 합니다.먼저 데이터를 불러온 다

2021년 8월 25일
·
0개의 댓글
post-thumbnail

미국 고등학생 시험 점수 데이터 분석 2부

3-3. 부모의 학력 수준에 따라 학생들의 수학, 읽기, 쓰기 성적에 차이가 있을까?parental.level.of.education 변수는 6개의 level(그룹)을 가지고 있기 때문에 일원분산분석을 시행하되, 마찬가지로 종속변수가 정규성 가정을 위배하였기 때문에

2021년 8월 22일
·
0개의 댓글
post-thumbnail

미국 고등학생 시험 점수 데이터 분석 1부

Kaggle 데이터셋 : https://www.kaggle.com/spscientist/students-performance-in-exams이번에는 학생 점수 데이터셋을 가지고 EDA(탐색적 데이터 분석)를 진행해보려고 합니다.먼저 데이터를 불러온 다음, 중

2021년 8월 22일
·
0개의 댓글
post-thumbnail

EDA와 CDA의 차이점

EDA와 CDA는 무엇인가 어떻게 다른가?

2021년 8월 18일
·
0개의 댓글
post-thumbnail

EDA 프로젝트 : 신용카드 연체 예측 프로젝트

신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측하는 모델을 위한 데이터분석사용자별 신용등급은 credit이라는 feature로 0,1,2 세단계의 등급이 존재하며 사용자의 데이터를 보고나서 이 credit등급을 예측하여 대금 연체 정도를 예측한다.(0일수

2021년 8월 18일
·
0개의 댓글
post-thumbnail

Instacart 데이터 EDA

데이터는 총 5개의 csv 파일로 나누어져 있다.우선 각 파일을 아래의 SQL조건으로 합쳤다.데이터에서 재품 이름을 가뎌오지 않았다.총 13개의 variable이 만들어졌다.inner join 을 했을시 데이터 길이가 1,048,576에서 422,287이 되었다.데이터

2021년 8월 17일
·
0개의 댓글
post-thumbnail

Mini EDA Review_part 3

썸네일 이미지 출처: https://www.dataapplab.com/how-to-be-top-10-at-kaggle-competition/kaggle-logo-gray-300/ 이전 포스트에서 범주를 재구성한 새로운 컬럼들이 있는데, 그 컬럼들의 원래 컬

2021년 8월 15일
·
0개의 댓글
post-thumbnail

Mini EDA Review_part 2

썸네일 이미지 출처: https://www.dataapplab.com/how-to-be-top-10-at-kaggle-competition/kaggle-logo-gray-300/ EDA Review 04. 3차 컬럼(column) 선별 이전 포스트에서 마지막 부

2021년 8월 14일
·
0개의 댓글
post-thumbnail

Bayes Rule (베이즈 룰)

머신러닝에서 유명한 베이즈 룰에 대해 알아보기

2021년 8월 12일
·
0개의 댓글
post-thumbnail

데이터 분석, 그거 어떻게 하는건데,,😶‍🌫️

데이터 분석을 하는 것은 서로를 알아갈 때 호구조사를 하는 것과 비슷하다. 이 데이터가 어디에서 왔는지, 어떤 내용을 담고 있는지, 어떤 형태인지 등을 분석해야 인사이트를 얻을 수 있다. 이를 위한 데이터 분석 단계를 "EDA(Exploratory Data Analys

2021년 8월 7일
·
0개의 댓글