AI데이터엔지니어 부트캠프 <핀테커스> 9주차 - (2) 딥러닝&핀테크

Pygmalion Dali·2023년 10월 30일
0
post-custom-banner

Deep Learning

#️⃣ 활성화함수

시그모이드 (Sigmoid) 함수

x값의 변화에 따라 0에서 1까지의 값을 출력하는 S자형 함수
로지스틱 함수라고도 부름
하이퍼볼릭탄젠트 (Hyperbolic Tangent) 함수

시그모이드 함수와 유사
하지만 -1~1의 값을 가지면서 데이터의 평균이 0이라는 점이 다름
렐루 (ReLU) 함수

x가 음의 값을 가지면 0을 출력, 양의 값을 가지면 x를 그대로 출력
함수 형태도 max(0, x)로 계산이 간단하여 학습속도가 빠름
리키렐루 (LeakyReLU) 함수

렐루 함수와 유사
0 미만의 값도 0.1을 곱하여 반영
소프트맥스 (SoftMax) 함수

입력받은 값이 0~1 사이의 값으로 출력되도록 정규화하여 출력의 총합이 1이 되는 특성
딥러닝에서 출력 노드의 활성화 함수로 많이 사용

#️⃣ 손실함수
예측값과 실제값의 차이를 구하는 함수
두 값의 차이가 클 수록 손실함수의 값은 커짐

#️⃣ 역전파 (Backpropagation)
오차 예측값과 실제값의 차이를 역방향으로 전파시키면서(출력층 -> 은닉층 -> 입력층) 가중치를 업데이트 하는 것

#️⃣ 심층 순방향 신경망 (DFN)
딥러닝에서 가장 기본으로 사용하는 인공 신경망 (심층 신경망)
DFN은 입력, 은닉, 출력층으로 이루어져 있음
입력 데이터가 시간 순서에 따른 종속성을 가진다는 문제 때문에 순환 신경망이 고안되게 됨

#️⃣ 순환 신경망 (RNN)
시간적으로 연속성이 있는 데이터를 처리하기 위해 고안된 인공신경망
앞에 입력된 데이터가 뒤에 입력된 데이터에 영향을 미침
RNN은 은닉층의 각 뉴런에 순환 구조를 추가하여 이전에 입력된 데이터가 현재 데이터를 예측할 때 다시 사용되도록 함
하지만 신경망 층이 깊어질 수록 장기기억의 문제(Long-Term Dependency)이 발생하여 LSTM이 고안됨

#️⃣ LSTM (Long Shor-Term Memory)
신경망 내에 메모리를 두어 먼 과거의 데이터도 저장할 수 있도록 함
입력게이트: 현재의 정보를 기억하기 위한 소자. 과거와 현재 데이터가 시그모이드 함수와 하이퍼볼릭 탄젠트 함수를 거치면서 현재 정보에 대한 보존량을 결정
망각게이트: 과거의 정보를 어느정도 까지 기억할 지 결정하는 소자
출력게이트: 출력층으로 출력할 정보의 양을 결정하는 소자

#️⃣ 합성곱 신경망 (CNN)
인간의 시각 처리 방식을 모방한 신경망
이미지 처리가 가능하도록 합성곱(Convolutional) 연산 도입

CNN 구조

합성곱층 (Convolutional Layer)

이미지를 분류하는데 필요한 특징 정보들을 추출하는 역할
특징 정보는 필터(kernel)를 이용해 추출
합성곱층에 필터가 적용되면 이미지의 특징이 추출된 '특성맵’이라는 결과를 얻을 수 있음
풀링층 (Pooling Layer)

합성곱층의 출력 데이터(특성 맵)을 입력으로 받아서 출력 데이터인 활성화 맵의 크기를 줄이거나 특정 데이터를 강조하는 용도로 사용
최대풀링, 평균 풀링, 최소 풀링
CNN은 합성곱층에서 특징만 학습하기 때문에 DFN이나 RNN에 비해 학습해야 하는 가중치의 수가 적어 학습 및 예측이 빠름
CNN의 예측 성능과 효율성을 활용해 시계열 데이터에도 적용하는 연구 진행됨
완전연결층 (Fully Connected Layer)

Flatten된 최종 레이어

#️⃣ 워드 임베딩 (Word Embedding)
단어를 벡터로 표현하는 방법
기계가 사람의 언어를 이해할 수 있도록 변환

원핫 인코딩 (One-hot Encoding)
N개의 단어를 각각 N차원의 벡터로 표현하는 방식
단어가 포함되는 자리에는 1을 넣고 나머지 자리에는 0을 넣는 방식

라벨 인코딩
N개의 단어를 0~N으로 표현하는 방식
숫자에 의미부여를 하는 모델에는 부적합 (라벨의 크기간에는 연관성이 없는데 대소 비교를 하기 때문)

#️⃣ TF-IDF
단어마다 가중치를 부여하여 단어를 벡터로 변환하는 방법
TF (Term Frequency): 특정 문서에서 특정 단어가 등장하는 횟수
DF (Document Frequency): 특정 단어가 등장한 문서의 수
IDF (Inverse Document Frequency): DF에 반비례하는 수

#️⃣ 워드 투 벡터 (Word2Vec)
비슷한 컨텍스트(context)에 등장하는 단어는 유사한 의미를 지닌다는 의미에 기반하여 단어를 벡터로 표현하는 방법
CBOW: 전체 컨텍스트로부터 특정 단어를 예측하는 것
Skip-gram: 특정 단어로부터 전체 컨텍스트의 분포(확률)을 예측하는 것

#️⃣ Fasttext
페이스북 개발. 단어를 벡터로 변환하기 위해 부분 단어(Sub Words)라는 개념 도입
N-gram: 문자열에서 N개의 연속된 요소를 추출하는 방법
부분 단어를 사용하면 워드투벡터에서 모르는 단어를 해결할 수 있음

#️⃣ 적대적 생성 신경망 (GAN)
2개의 신경망 모델이 서로 경쟁하면서 더 나은 결과를 만들어내는 강화학습
이미지 생성 분야에 뛰어난 성능
Generator Model: 주어진 데이터와 최대한 유사한 가짜 데이터를 생성
Discriminator Model: 진짜 데이터와 가짜 데이터 중 어느 것이 진짜 데이터인지를 판별

Fintech
핀테크는 금융과 기술의 결합을 의미하는 합성어
IT 기술을 금융에 활용함을 의미

#️⃣ 글로벌 IT 기업의 금융업 진출

송금: 인터넷 플랫폼으로 송금 의뢰자와 수탁자를 직접 연결시켜 송금 수수료를 낮추며 송금시간 단축
지급 결제: IT 기술을 활용한 다양한 결제 방식으로 간편한 결제 서비스를 제공
자산 관리: 온라인 투자 절차 수행으로 자금운용 수수료를 낮추고 온라인 분석시스템을 통해 최적화된 투자 포트폴리오 구성
대출 중개: P2P기반으로 대출자와 차입자를 직접 중개하고 자체 신용평가로 대출 취급비용 절감

#️⃣ 핀테크 사업 유형 분류

은행업 및 기업 금융: 온라인 뱅킹, 자산운용, 대출 서비스 등
자본시장 관련 기술: 크라우드 펀딩
금융 데이터 분석: 리스크 관리, 사기 탐지, 신용 모니터링
지급결제: 개인간 간편 송금, 결제대행, 전자화폐
개인 자산 관리: 주식 포트폴리오, 개인자산관리

#️⃣ 데이터 분석 활용 사례

금융데이터 분석 활용 사례
마케팅: 신규 상품 및 서비스 개발, 타겟 마케팅 및 CRM
리스크 관리: 사기 및 부정 탐지 시스템, 비정형 데이터를 활용한 신용평가모형 개선
투자관리 및 트레이딩: 고객 최적화 단기 투자포트폴리오 제공 및 알고리즘 트레이딩

국내 금융기관 금융 데이터 분석
국내 금융기관의 지능형 감사정보시스템 구축
룰베이스의 활용: 직원위험 요소, 위험거래, 영업점 위험요소등 위험 요소 결합에 의한 필터 룰 베이스 구축
스코어링 모형의 활용: 영업점 모형 - 직원, 점장 환경에 대한 고유 위험, 수신, 여신, 외환 등 거래 위험을 결합하여 위험수준 도출
직원모형 - 인구통계정보, 직무특성등을 고려하여 직원의 부정위험을 중심으로 위험 수준 도출

국내은행의 지식베이스를 활용한 자금세탁방지시스템 구축
혐의 거래를 적출하여 신속 정확하게 검사하고 적절하게 보고하는 시스템
KYC(know your customer) 모듈, STR보고를 위한 TMS(transaction monitoring system) 모듈,
CTR(currency transaction report) 모듈 등으로 구성
룰과 스코어링 모형의 구축: 혐의 거래를 추출하기위한 룰 생성 후 특정 고위험군 필터링하여 위험도 산출

국내 카드사의 부정사용방지시스템
신용카드 사용자의 일반적인 사용 패턴을 인식하고 패턴을 벗어난 거래가 발생시 경고
사고패턴 룰 구축: 의심되는 거래패턴에 해당될 경우 경보 발생
(ex: 국내 카드거래 1시간 후 해외 거래시도는 사전 통제 / 발생 가능하지만 과거패턴 분석할 때 사고 개연성이 높은 경우)

Fintech Business Model

#️⃣ 금융분야 마이데이터 서비스 유형
금융정보 통합 조회
재무 현황 분석
신용관리 정보관리 지원
금융상품 정보 제공 추천

#️⃣ 지급결제 플랫폼
카카오 페이 (간편 결제)
당근 페이

#️⃣ 로보 어드바이저
마이데이터를 통해 기존 방식 대비 우월적 고객 성향 파악이 가능
Self Directed Investing 방식은 고객 포트폴리오를 재 분석, 로보어드바이저가 고객 성향에 맞는 포트폴리오 제공 가능
2030 세대의 소액 자산관리 시장 형성할 것

#️⃣ P2P 대출
2020년 8월 출범한 온라인투자중개업(P2P)은 정부의 규제 등으로 도입 2년 만에 사양 산업으로 추락

#️⃣ 보험 산업
금융소비자보호법(금소법)이 발효되며 핀테크 업계에서는 보험상품 추천 서비스 전면 중단

post-custom-banner

0개의 댓글