[ZB] TeamProject 1 - 주제 선정 및 기획안 작성

porii·2024년 11월 12일

[edu] zerobase

목록 보기
19/28

주제 탐색

기획안 작성 (~10/28 월)

1. 사기계좌 탐지

데이터셋
https://www.kaggle.com/datasets/sgpjesus/bank-account-fraud-dataset-neurips-2022/data
테이블 및 컬럼
- Base
- 사기 유무
- 연봉
- 이름-이메일 유사도
- 이전 주소 거주 월 수
- 현 주소 거주 월 수
- 나이대
- 신청 이후 지난 일 수
- 신청 초기 이체 금액
- 지불 방식 타입
- 지난 4주 기준 우편번호별 신청 수
- 지난 6시간 동안 시간당 평균 신청 수
- 지난 24시간 동안 시간당 평균 신청 수
- 지난 4주 간 시간당 평균 신청 수
- 지난 8주 간 특정 은행에서의 총 신청 수
- 지난 4주 간 같은 생년월일(일?)을 가진 신청자의 이메일 수 - 변수가 2개인데 어떻게 나오는거지???
- 신청자 고용 상태
- 신청위험의 내부 점수 - ??
- 신청 이메일의 도메인 - free / paid
- 신청자의 현 거주 상태
- 집 전화 유효 상태
- 휴대 전화 유효 상태
- 현 계좌 얼마나 오래 되었는지 (월)
- 신청자의 동일 은행 내 다른 카드 소유 여부
- 신청자 신용 한도
- 신청 국가가 은행 국가와 다른지
- 신청 소스 - Internet / App(Mobile)
- 은행 웹사이트 머무른 시간 (분)
- 신청 디바이스 시스템 - Windows / Macintox / Linux / X11 / others
- User option on session logout -??
- 지난 8주 간 은행 사이트에서 중고기기와 구별되는 이메일 수
- Number of fraudulent applications with used device - 전부 0값
- 신청 월

  1. 주제

    사기계좌 유무 탐지 신청 건수 현황 - 불안도를 보여줌

  2. 방법론

    분류, (ML), 회귀

  3. 데이터 설명

    현실에 기반한 데이터셋

    ML을 위해 6가지로 데이터 베리에이션을 줌

    • 입력
    • 출력 - 사기 계좌
  4. 이야기

    최근 늘어나는 수많은 사기 중 은행 및 금융 사기에 초점을 둔다. 사기 계좌를 탐지하는 데이터셋을 분석하는 일은, 어떠한 속성을 가진 계좌가 사기 계좌인지를 나타낼 수 있는 것에 더하여 관련 사기에 대한 사람들의 불안도 또한 반영할 수 있다고 여긴다. 이는 application 과 관련한 feature들을 통해 살펴볼 수 있을 것이다. 해당 데이터셋을 통하여 사기 계좌를 탐지하는 모델링을 하여 추후 사기 계좌 탐지를 도울 수 있으며, 불안도의 추세가 나타난다면 이와 관련하여 시기 및 지역에 따른 집중 전략을 세우는 데 도움이 될 수 있다.

2. mental disorder 상관관계 분석

데이터셋

https://www.kaggle.com/datasets/diegobabativa/depression/data
https://www.kaggle.com/datasets/muhammadfaizan65/mental-health-depression-disorder-data/data
1. 개요 - 현 시대 증가하는 각종 정신질환의 현 시점에 대하여
2. 사용
- 국가 및 시간에 따른 정신질환의 흐름 분석
- 연구 및 공공보건
3. 테이블 및 컬럼 설명
- 공통컬럼
- 국가명
- 국가코드
- 기록 연도
1. 교육에 따른 우울 정도 - 교육의 정도가 우울증과 각 국가에서 어떤 연관을 갖는지
- 전 교육레벨 | ~중등교육 | ~고등교육 | 고등교육 이상 에 대하여
우울증을 지닌 활동 인구 비율 / 근로인구 비율 / 전체 인구 비율
2. 우울증 지표 - 다양한 지역과 시기에 따른 우울증 분석
- 우울질환을 겪은 사람의 총 수
3. 정신 및 약물 질환 - 다양한 정신질환의 분포 이해
- 조현병 겪은 인구 %
- 조울증 겪은 인구 %
- 식이장애 겪은 인구 %
- 걱정질환 겪은 인구 %
- 약물질환 겪은 인구 %
- 우울증 겪은 인구 %
- 알코올 질환 겪은 인구 %
4. 나이에 따른 우울증 -
- 10-14/15-19/20-24/25-29/30-34/70+
5. 성별에 따른 우울증
- 남성 인구 / 여성 인구 / 전체 인구
6. 우울질환과 자살율 - 간의 관계를 이해

  1. 주제
    정신 질환 상관관계 분석
  2. 방법론
    데이터 EDA
  3. 데이터 설명
    • 입력
    • 출력 - 인사이트
  4. 이야기
    나날이 다양한 형태의 정신질환으로 인해 병원을 찾는 이들이 많아진다고 한다. 이를 그저 ‘우울증으로 병원을 찾는 사람들이 늘어난다’라고 말하기보다 주어진 데이터셋이 가진 feature을 통해 국가 및 학업단계 등에 따른 정신 질환이 어떻게 나타나는 지 분석해 본다. 이를 통하여 다양한 국가 내 인사이트를 도출할 수 있으며, 인사이트를 통해 특정 국가 및 특정 그룹에 대하여 정신 질환을 예방하는 환경을 조성하는 등의 전략 제안을 해 볼 수 있다.

기획안 확정

[개요]

과정명: 데이터 분석 스쿨 10기
프로젝트 종류: 은행 사기거래 계좌 탐지
프로젝트 기간: 10/24~11/18
프로젝트 인원: 6명
프로젝트 팀원: 김ㅇㅇ, 김ㅇㅇ, 박ㅇㅇ, 박ㅇㅇ, 조ㅇㅇ, 한ㅇㅇ

[프로젝트 주제]

은행 사기거래 계좌 탐지

[방법론]

이진분류 모델 머신러닝

[데이터]

링크: https://www.kaggle.com/datasets/sgpjesus/bank-account-fraud-dataset-neurips-2022/data

(장점)

NeurIPS 2022 에서 발표된 저명한 데이터셋 이다.
기존 프로젝트들이 많이 사용하지 않는 신규 데이터셋 이다.
실제 데이터이고, 저작권이 보호되어 있다.
다양한 변종 데이터셋이 있다.
ML까지 다뤄볼 수 있다.

(단점)

양성 클래스의 비율이 매우 낮아 문제 자체가 어렵다.
실제 사기 계좌 개수 현저히 적음

(입력)

연간소득 사분위수, 이메일과 이름 유사성, 이전 등록 주소, 현재 등록 주소의 개월 수, 나이, 신청완료 경과일, 초기 이체 금액, 결제 요금제 유형, 동일 우편번호 신청 건수, 개설신청 속도, 은행별 접수 신청 건수, 동일 생년월일 이메일 수, 고용 상태, 신용위험점수, 거주 상태, 집전화 유효 여부, 휴대폰의 유효기간, 이전 계좌의 나이, 같은 은행의 다른 카드, 신용 한도, 외국여부, 신청 소스, 사용자 세션의 길이, 사기 신청 수, 월,

(출력)

사기(bool 타입)

[프로젝트 기획안]

저희 파이널 프로젝트 주제는 ‘은행 사기거래 계좌 탐지’ 입니다.
최근 사기가 다양해지고 있으며, 사기 건수도 많아지고 있습니다.
특히 은행 및 금융 사기는 큰 재산 피해를 야기합니다.
저희는 이러한 은행 및 금융 분야를 중점으로 사기를 탐지해서 예방하고자 합니다.

사기 거래 계좌 탐지를 통해 다음 2가지 효과를 기대할 수 있습니다.
기존 및 잠재 고객들에게 ‘사기 걱정 없이 안전하게 거래할 수 있는 은행’ 이미지 부여할 수 있습니다.
또한, 사기 탐지를 통해 공익에 사용할 수 있는 모델과 인사이트를 제공할 수 있습니다.
사기 탐지의 인사이트를 얻어서 다른 분야에도 활용할 수 있다.
(로맨스 스캠, 딥페이크, 투자사기, 쇼핑 사기, 전세 사기 등)

결론적으로 feature들을 기반으로 사기 계좌의 여부를 탐지하는 이진 분류 모델을 설계합니다.
해당 데이터셋은 feature의 수도 많고 다양하여 선정하게 되었습니다.
기대 역량: 분류 모델링, 은행 데이터 분석 능력 향상, 사기 데이터 분석 능력 향상

0개의 댓글