데이터 분석 프로그래밍

allzeroyou·2022년 3월 13일
0

0308 12:00~1:15

<영상자료>

빅데이터의 역사

  1. 데이터를 저장하는 하드디스크의 비용 감소로 빅데이터의 역사가 시작됨.
    데이터는 정형화 되었어야 하는데, 비용 감소에 따라 다양한 정보가 저장 가능해짐.
    따라서 보다 많은 데이터를 쉽게 저렴하게 저장 가능
    이미지, 동영상 같은 비정형 데이터까지 수집 가능

저장소 비용 감소(인텔의 공동창업자 고든 무어가 1965년에 주장한 무어의 법칙은 반도체의 집적도(1개의 반도체 칩에 들어가는 트랜지스터 등 소자의 수)가 2년마다 2배로 증가한다는 이론이다. 1년~1년 6개월마다 반도체 집적도가 증가, 동일한 사이즈에 반도체 많이 저장 가능)
무어의법칙

이를 처리할 수 있는 cpu, gpu 능력 향상으로 한정된 시간 내 데이터 분석이 가능해짐.
cpu의 코어, gpu 성능 개선 → 더 많은 데이터 저장

cpu(Central Processing Unit) vs gpu(Graphics Processing Unit)
cpu: 똑똑한 대학생, 석사, 박사(어려운 수학문제를 잘 품)
gpu: 초등학생 1000명 정도(더하기 연산 문제)
물리적인 차이는 GPU가 더 많은 코어로 구성돼 병렬 처리에 강점이 있다.

  1. 데이터 증가
    데이터가 급격하게 증가해 빅데이터 등장 → 대용량 데이터 처리가능한 기술 발전
    머신러닝, 딥러닝 등 을 통해 대량의 데이터로부터 기존에는 알기 어려웠던 의미 파악 가능해짐 → 빅데이터의 활용이 크게 증가

hadoop: 데이터 분산해 저장, 각 분산된 데이터 처리(https://www.tableau.com/ko-kr/learn/articles/big-data-hadoop-explained)
sk: 하둡을 도입해 실시간 데이터 수집 및 사용자 맞춤 데이터 처리

메모리 → 빅데이터를 빠르게 처리 가능
즉, 수많은 정보를 거의 실시간으로 수집가능. 리얼타임으로 인사이트 도출 가능

빅데이터에서 가치를 만드는 방법 ?

기존 데이터 분석의 단순한 확장 → 빅데이터 프로젝트 확장

왜 빅데이터가 의미 있을까요?

얻어진 분석의 결과가 비즈니스 상황을 이끌 인사이트로 적용되기 때문
자동 알고리즘 → 의사 결정 시스템

예를 들어, 소비자가 어떤 것을 원하는지, 무엇을 구매할 지 안다면 이를 활용해 더 많은 상품을 판매해 수익 창출 가능

공장의 불량품을 줄이기 위한 방법으로, 다양한 현장에서 활용 가능

폭모수 모형이 아닌 단계별 피드백으로 완성도를 높임
한번 발전 해 끝내는 것이 아닌 지속적으로 운영 및 관리를 해야→ 회사에서 빅데이터 운영의 실패 원인

데이터 마이닝(Mining) 프로세스

마이닝이란, 채광으로 광물이나 암석을 캐내는 작업을 일컫는다.
돌덩이에서 금을 캐내듯이 데이터에 숨은 가치를 찾기 위해 많은 조직에서 빅데이터 기술을 접목하고, 가치를 활용하려는 시도를 하고 있다.
데이터마이닝 방법론은 데이터의 가치를 찾아가는 체계적인 절차와 방법을 체계적으로 정리한 것이다.

crisp-dm(Cross-Industry Standard Process for Data Mining)

데이터 분석 방법론 중 가장 많이 활용되는 방법
비즈니스 이해 (Business Understanding)
데이터 이해 (Data Understanding)
데이터 준비 (Data Preparation)
모델링 (Modelling)
평가 (Evaluation)
배포 (Deployment)
비즈니스의 이해, 데이터 이해(데이터 준비 단계)
사업과 데이터에 대한 이해가 선행되어야

비즈니스 이해

과제를 설정 한 후 비즈니스 목표 수립 → 기술적 관점이 아닌 비즈니스 관점에서 부터 시작
데이터 이해
데이터를 수집하고 이해 → 무슨 요리를 할지와 비슷
고객이 무엇을 ‘좋아’하는지, 싫어하는지 상세히 구분해 데이터를 구체화하는 것이 중요함.
원하는 데이터를 빠르게 수집할 수 있는지에 대한 여부 → 수집하는데 시간이 오래걸리면 의미 사라짐

3) 데이터 전처리 과정
실제로 수집되는 데이터가 복잡하기 때문에
4) 모델링
분석할 데이터를 기반으로 모델을 만들고 문제의 유형에 따라 기법중 하나를 선택
다양한 알고리즘을 통해 모델 → 최적화(데이터마이닝)
이를 머신러닝으로 해결
이때, 머신러닝은 지도학습, 비지도학습으로 나뉜다.

*지도학습: 정답을 알려주며 학습(1. 회귀 분석: 변수들 간 인과관계 ex. 주가예측, 유전 등 → 통계적인 자료들/ 2. 분류분석: 보험 수혜 내역을 바탕으로 고위험군을 파악)

*비지도학습: 정답을 알려주지 않으며 학습

  • 군집분석
    불량품을 줄이기 위해 불량품의 과거 데이터를 통해 어떤 군집에 해당하는지 분석

  • 연관성 분석
    a 제품이 특정 소비자에게 많이 팔렸다면 이를 바탕으로 “a를 사면 b도 사더라” 하는 바탕으로

5) 모델링
모델링을 통해 도출된 결과는 이러한 성과가 비즈니스에 어떠한 의미를 줬는지 평가
정확성 판단을 넘어 사업에 어떠한 영향을 미치는지 확인해야
평가에만 그치지 않고 지속적인 데이터의 모델 및 성능의 최적화

6) 구축
개발된 모델로 지속적인 관리를 통한 방법 제시(보고서 작성)
프로젝트가 끝나는 것은 아님.
이처럼 성공적인 빅데이터 구축을 위해 서클을 그리며 빅데이터의 완성도를 높여야

대표적인 사례

  • 큐레이팅 서비스(추천 서비스)
    넷플릭스
    기기와 시청시간 등 데이터를 이용해 사용자에게 새로운 프로그램 추천
    추천 시스템 (content based filtering)

  • 개인화 서비스
    위치, 나이, 성별 등 고객 특성과 기호에 맞는 서비스 제공
    유튜브에서는 맞춤 광고 제공
    금융사에서는 고객마다의 장기 및 단기 금융 상품 추천

  • 예측 서비스
    특정패턴을 파악하고 미래수익이나
    bluedot이 대표적인 사례(https://bluedot.global/products/insights/)

공장 라인의 이상 유무를 사전 파악 가능
제품의 수요 및 공급 예측 가능
추천 서비스, 개인화서비스, 예측 서비스는 자율 주행차와 같은 새로운 시장 개척 및 구축하고 있음.

빅데이터를 이용하기 위한 기업의 과제

즉 빅데이터를 이용하고 성공하는 기업이 되기 위해서는 이를 이용하는 고객이 얻게되는 가치를 생각해야 함!
필요한 인사이트를 도출하기위해 어떤 데이터가 필요한지, 보다 정확한 인사이트 도출가능?

성공적인 빅데이터 구축을 위해 비지니스 이해, 데이터의 이해, 모델링 등 6단계를 수행해야
많은 사람들은 데이터 사이언티스트나 빅데이터 관리자가 해야한다고. 생각하지만 ㄴㄴ → 현직자가 해야
빅데이터라고 하면 데이터 사이언티스트의 일이 아닌 협업 담당자의 역할이 가장 중요
빅데이터 전략을 수립하면서 전문자에게 바라는 경향 때문에 → 우리나라가 빅데이터의 사업은 크나 빅데이터 활용 순위는 다른나라에 따라가지 못하는 이유

어떠한 비즈니스 가치를 만들 수 있느냐
→ 빅데이터로 가능한 비지니스 가치?
→ 가치를 위해 어떤 인사이트?
→ 인사이트가 나오면 가치를 위해 어떤 액션?

데이터 확보가 가능한지, 데이터 상태 어떤지, 어떻게 분석해야 인사이트가 나오는지를 그려야, 또 하나 인사이트를 보다 정교화할 수 있는 간접 데이터도 충분히 많다.
인사이트의 정교화가 이뤄질 수 있음.
이슈이던 아파트 정보만 보더라도 도시개발 계획, 재산세 납부 정보등을 포함한다면 정확한 인사이트 도출가능,

ex. 아마존 무인화 매장.
오프라인상에서 나타나는 고객의 패턴 파악
추천시스템 적용해 이용이 증대될 수 밖에 없음.

즉, 데이터가 있는 기업과 그렇지 않은 기업이 분명히 다를 것.

인사이트
분석한다고 끝나는 것이 아닌 그걸 의미파악 후 평가를 해야 가치가 생김!

가치를 만드는 과정 → 무엇을 할지 목표를 세움.
ex. 요리와 비슷함.
1.어떤 요리?
2. 재료 장보기(유기농, 가격 등)
3. 손질 및 가공
4. 요리 완성(visualization)

데이터 분석의 가치
불확실한 미래 대비
ex. 부동산 시세
데이터 기반 의사결정
직감이나 경험이 아닌 객관적인 데이터 분석을 활용한 의사결정 가능
새로운 소통의 언어
데이터 리터럴시 → 분석한 데이터를 기반으로 의사소통

데이터 분석의 절차와 방법
상황에 따라 유동적이고 다양함.
분석 목표와 목적을 고려
데이터의 종류와 특성을 고려

탐색적 방법론 → 어떤 변수가 어떠한 영향을 주는지 분석 필수

  • 확증적 데이터 분석: 목표 명확
  • 탐색적 데이터 분석: 목표 명확치 않음. 공공 데이터 포털 → 어떤 목표로 분석?
    변수 변수 사이 관계성 등 나온 결과를 통해 커피 판매 데이터 속 가치(인사이트) 도출
    ex) 매장: 아아 or 뜨아?에 따라 원재료 준비

연구와 비즈니스에서의 데이터 분석
연구와 데이터 분석
-분석 목표를 먼저 설정
-실험, 설문 등을 통해 데이터 수집

  1. 비즈니스와 데이터 분석
    -기업 활동에서 쌓인 데이터를 활용
    -데이터를 분석 가능한 적절한 분석 목표 설정

  2. 경계가 모호한 다양한 데이터 분석
    -일반적으로 명확한 구분은 어려움
    ex. 국민건강보험공단 진료내역 데이터를 활용한 질환 발병 연구
    기업 내부 데이터 활용이 아닌 마케팅 반응률 측정을 위한 A(집단), 대조군-B(집단) 테스트 설문

데이터 분석의 주요 과정
데이터 수집
내부 데이터
사내 데이터베이스, 기존 연구 데이터 등
직접 수집한 데이터
실험 결과, 설문/리서치 결과
외부 데이터
정부기관이 보유한 공공 데이터, 일부 업체가 공개한 민간 데이터
내부 데이터 + 외부 데이터의 결합의 필요성
더 많은 변수 간의 관계를 활용해 심도 있는 분석이 가능
ex. 커피 전문점 데이터와 기상 데이터의 결합

<공공 데이터의 활용>
공공데이터 포털
통계청 MDIS
서울시 열린데이터광장

<민간 데이터의 활용>
네이버 데이터랩
해외-kaggle(캐글)
분석에 알맞게 데이터 가공
적절한 방법으로 데이터 분석
분석 결과 시각화/문서화 하기

분석에 알맞게 데이터 가공하기
데이터 가공
데이터 인식과 분석을 위해 데이터의 형태 변환
데이터 가공의 필요성
부분 데이터 선택
변수 결합, 분해 및 파생 변수 생성

<요약과 모형 적합>

  • 요약
  • 모형 적합(model)
    데이터 속 변수와 관측치 간 관계를 확인
    관심있는 가능성을 수치화한 확률로 설명
    ex. 날씨, 요일, 시간대에 따른 매장별 손님수와 주문상품 예측

분석의 실행
분석의 목표 설정
실행 가능성과 활용 가능성을 고려해 결정
ex. 북한에 농기구 수출?
데이터 수집
탐색적 데이터 분석
변수와 변수간 상관관계 파악
확증적 데이터 분석 / 모형 적합
분석 결과 공유

분석 결과 시각화/문서화 하기
분석과 분석 결과의 요약
-전체 분석 과정이 아닌 분석의 흐름을 이해할 수 있는 수준으로 요약
-효과적인 정보전달을 위해 다양한 그래프 활용(시각화)
-MS Office, Markdown, Dashboard (웹 기반 동적 보고서)

profile
모든 건 zero 부터, 차근차근 헛둘헛둘

0개의 댓글

관련 채용 정보