분류
금융
신용등급이 진짜로 유의미한 등급인지 분석해보면 재밌겠다는 생각을 했읍니다 근데 lending club이 아무래도 은행이 아니라 개인 투자자들이 개인에게 대출을 해주는 형태라 여기만의 신용등급을 매기고 뭐 그런..걸 할 수 있을까요?
제조
이것도 도메인지식이.. 어느정도 필요한 데이터가 아닌가..ㅎ
군집
회귀
이상탐지
비지도학습이기도 하고 도메인지식이 필요할 것 같습니다
일단 공통적으로 이상탐지 x / 분류 - 제조 x
흥미로운 걸 두 개를 꼽아보면
군집 - 금융데이터로 결정
Q1) mcc codes.json 파일 안 써도 되나요?
visa로 대체? → 더 세분화 되어 있어서 그런건가?
Q2) 피처 선택 시 중요도에 나의 생각을 투영해도 되나요?
기획을 세분화하는 것은 좋은 전략
대주제 : 고객을 세분화해서 맞춤전략을 제공하겠다
실험 시 모든 컬럼을 다 넣어주는 게 좋음
→ scree plot → range 나눠서 보기 (ex. k = 4, 3…)
*이때 실험 결과 기록해야 함

다른 기법도 충분히 쓸 수 있음
(클러스터링을 하기 위한 중간 과정의 하나로)
파생변수 설정 중요
라인차트(평균), 레이더차트 유의미
생키차트(시간에 따라 고객이 어떻게 흘러갔는지)
분석
전체 데이터셋 EDA
상세분석(상관관계 및 통계적 가설검정이 사용될 수 있습니다.또한 시장 동향자료가 배치되어도 좋습니다. )
ML
분석 결과

데이터셋 로드

mcc codes, mcc_codes_visa
display

info
mcc object로 확인됨

int로 변형하고 다시 확인

json mcc랑 visa mcc랑 비교해보기

merge하고 확인



이상치 확인

필요없는 컬럼 버리기






확실히 이상한 데이터
users > 희린
cards > 동윤, 주황
transactions > 수희, 형진
zip 우편번호 비정상(길,짧)
merchant_state 미국 주 코드 비정상(길,짧)
mcc가 1 ~ 9999 범위가 아닌것
amount가 음수인 것 (환불금액인지, 아닌지)
기간 2017/1/1 ~ 2019/10/31
상관관계도 보기 + 시각화
카드정보로 뭐 할 거 아니니까 빼도됨(민감정보 - 카드정보, 위도, 경도)
ㄴ고객의 기준으로 삼는 거면 괜찮지않나?
시각화
데이터를 결합했을때 서로 잘 맞는 데이터인 것 같다 ?
확실한 이상치 먼저 제거하고 파생변수
소득대비 지출 많다/적다
ㄴ할부가 많이되는 카드?
지역에 따른 소비패턴
ㄴ가맹점 위치에 따라서 활동반경을 볼 수 있다 (집밖으로 안나가는사람 -> 온라인쇼핑) *
ㄴgeocode > 시각화 추가
ㄴgeopandas
연령/성별별 소비패턴
신용점수 * > 유의미한 차이가 있을지는 모르겟음
ㄴ할부가 많아지면 점수가 떨어지고
ㄴ연체가 점수가 떨어지고
ㄴ카드대금을 밀리지 않고 냈을때
ㄴ등급별로 나누는것도 괜찮지않냐
(POOR/FAIR ~어쩌고저쩌고)
계좌개설일자 *
ㄴ나이 대비 금융활동일? > 파생변수 ? 이 긴사람은 ...머 어쩌고다
ㄴ계좌를 만든지 오래됐는데 돈을 안써 ???? > 휴면계좌 (금융 활동성?)
ㄴlast_pin_change랑 연관지을수도있을듯
소득 대비 카드한도
자주 쓴 가맹점(가게) + 한번 갔는데 돈을 많이 쓰는곳
카드 타입(debit vs credit vs pre-paid)
ㄴ나이랑 상관관계가 있지않을까
ㄴ신용이 있어야 신용카드를 쓰니까
21 점심까지 각자 확실한 이상치/결측치 전처리를 > 월요일 밤까지 전처리
ㄴeda(분포 확인) 먼저 제거할때도 증명이 필요 (시각화 근거 제시)
ㄴ그대로 써도 성능이 좋을 경우 새로운 인사이트임 !
25 분석을 끝낸다
28~29 자료준비
29일 밤까지는 발표자료, ppt, 인사이트 / 30일 오전 10시까지 최종제출
PPT : 희린
발표 : 수희
영상발표 : 동윤
코드 (다같이^^~)
ㄴ전처리
ㄴ머신러닝 k값 ? -> 추가로 나눠야할 사항
주제선정✅ EDA✅ 계획✅오늘은 뭐 한 건 없고 프로젝트 주제선정하고 머 이런저런거 했다
힘들다 그만써야지 !
💿오늘의 추천곡 Frank Ocean - White Ferrari
