adsp 공부

잼은 공부 중·2024년 7월 22일

메타 데이터

  • 데이터에 대한 데이터로 데이터의 특성, 구조, 정의 및 관리 정보를 설명하는 데이터
  • 데이터의 구조와 의미를 이해하고 데이터를 관리, 검색 및 분석하는데 필수적

인덱스

  • 데이터베이스에서 데이터 검색 및 조회의 성능을 향상 시키기 위해 사용되는 자료구조
  • 키는 검색을 빠르게 수행하기 위한 정렬 및 검색 구조를 제공함

테이블

  • 표 형식의 행과 열로 구성된 데이터

속성

  • 테이블에서 하나의 열에 해당하는 데이터

데이터 크기

  • KB<MB<GB<TB<PB<EB<ZB<YB(peta<exa<zetta<yotta)

빅데이터의 본질적 변화 사전처리 → 사후처리 표본조사 → 전수조사질(quality) → 양(quantity)인과관계 → 상관관계

준비형(준비도 낮음, 성숙도 낮음)
: 기업에 필요한 데이터, 인력, 조직, 분석 업무 등이 적용되어 있지 않아 사전 준비가 필요한 기업

도입형( 준비도 높음, 성숙도 낮음)
:준비도는 낮으나 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업

확산형(준비도 높음. 성숙도 높음)
: 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 부분적으로도 도입되어 지속적 확산이 필요한기업

분석성숙도

  • 분석 성숙도 수준 진단은 주로 기업 내부의 데이터 분석능력과 프로세스에 대한 평가를 다룬다
  • 시스템 개발 업무 능력과 조직의 성숙도 파악을 위해 cMMI모델을 활용하여 분석 성숙도를 평가한다.
  • 비즈니스 부문, 조직/ 역량 부문, it 부문을 대상으로 성숙도 수준에 따라 도입 활용,확산, 최적화 단계로 구분해 살펴 볼 수 있다 ,
  • 데이터 분석 수준 진단은 부석 준비도와 분석 성숙도를 함께 평가함으로 써 수행될 수 있다.

분석마스터 플랜 수립 시 적용 범위/ 방식의 고려요소

  • 업무 내재화 적용수준
  • 분석 데이터 적용 수준
  • 기술 적용 수준

우선순위 고려요소

  • 전략족 중요도
  • ROI(투자자본 수익률)
  • 실행 용이성

분석활용 시나리오

  • 분석활용 시나리오에서 가장 중요한 것은 데이터 확보보다 목표와 목적이다
  • 목표와 목적을 명확하게 이해하고 정의하는 것은 분석 프로젝트의 핵심 요소 중 하나이다.
  • 목표와 목적을 정의하지 않으면 데이터 확보, 분석, 및 결과에 대한 계획을 수립하기 어려울 수 있다.
  • 데이터는 목표를 달성하고 목적을 실현하기 위한 도구로 사용된다.

분류 모형 평가사용 도구

  • 오분류표( 혼동행렬), ROC 그래프, 향상도 곡선, 이익도표, kappa

회귀모형 평가도구

  • MAE, MAPE,MSE, RMSE, MLSE, RMSLE, 결정계수

군집모형 평가도구

  • 실루엣 계수(SILhouette Coefficent), Dunn index

증거가 확실할 때 가설검정으로 증명하고자 하는것 : 대립가설

  • 귀무가설: 가설 검정의 대상이 되는 가설, 연구자가 부정하고자하는 가설, 알고 있는 것과 같음, 변화, 영향력, 연관성, 효과 없음에 대한 가설
  • 대립가설: 연구자가 연구를 통해 입증 / 증명되기를 기대하는 예상이나 주장, 귀무가설이 기각되면 채택되는 가설

군집 분석

  • 계층적 군집분석: 최소연결법, 최장 연결법, 중심연결법, 평균 연결법, 와드연결법
  • 비계층적 군집 분석: K-means, DBSCAN
  • 비지도 신경망 : SOM
    차원 축소: 주성분 분석 , 다차원 척도법, 요인 분석등이 있음

스피어만 상관계수

  • 대상자료는 서열 척도 사용, 두 변수 간의 비선형적인관계를 나타낼 수 있음
  • 연속형 외에 이산형도 가능
  • 스피어만 상관계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함

SOM(self-Oranizing MAPs)

  • 인공신경망의 한 종류로, 차원축소와 군집화를 동시에 수행하는기법
  • 비지도 학습의 한가지 방법
  • 고차원으로 표현된 데이터를 저차원으로 변환해서 보는데 유용함
  • 입력층과 2차원으 격자 형태의 경쟁층(= 출력층)으로 이루어져 있음(2개의 층으로 구성)

주성분 분석(PCA)

  • 공분산 행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는주성분을 찾는 방법
  • 상관계수가 있는 변수들을 선형 결합에 의해 상관관계가 없는새로운 변수를 만들고 분산을 극대화하는 변수로 축약함
  • 주성분은 변수들의 선형결합으로 이루어져 있음
  • 독립 변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화 함
  • 다중공산성 해결

연관분석 단점

  • 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가
  • 너무 세분화된 품목을 가지고 연관규칙을 찾으려면 의미헚는 분석 결과가 도출됨
  • 상대적 거래량이 적으면 규칙 발견시 제외하기 쉬움

연관분석 장점

  • 조건 반응으로 표현되는 연관 분석의 결과를 이해하기 쉬움
  • 강력한 비목적성 분석 기법이며, 분석 계산이 간편함

데이터 분할

  • 홀드 아웃
    : trainning data: 학습용 데이터
    : test 데이터 :
    : validation data: 학습단계에서 사용되며, 학습 중 성능 확인용 데이터
    ( overfittiong 여부 확인, early stopping 등을 위해 사용)

지지도

  • = a와 b가 동시에 포함된 거래수 / 전체 거래수

향상도

  • a가 주어지지 않았을 떄 b의 확률 대비 a가 주어졌을 떄 b의 확률 증가 비율

  • 품목 b를 구매한 고객 대비 품목 a를 구매한 후 품목 b를 구매하는 고객에 대한 확률
    향상도 =P(B|A)/P(B) = P(A∩B) / (P(A)P(B))
    향상도 = (0.3) / (0.7
    0.45)

    앙상블
    -voting: 서로 다른 여러 개의 모형을 생성하고 결과를 집계하여 많은 표를 받은 것을 답으로 하는 방식

  • 부스팅: 순차적인 학습, 붓스트랩 표본을 구성하는 재표 본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법

  • 스태킹: 두 단계의 학습을 사용하는 방식으로 서로 다른 여러 모형의 예측 결과를 다시 학습데이터로 하는 모형을 사용함

    drop- out : 딥러닝에서 과대적합 방지를 위해 노드의 일부를 랜덤하게 학습하지 못하게 하는 기법
    mini- batch : 단위 별로 쪼개서 학습하는 것으로 데이터를 일정하는 크기로 나누어 모형을 구성함
    bagging: 무작위 노드 선정이 아닌 bootstrap 방식으로 노드를 선정하는 방법을 사용
    adaboost: 강한 분류기를 약한 분류기로 학습시키는 앙상블 방법으로, 각 모델은 이전 모델의 에러를 보완하도록 가중치를 조절하면서 순차적으로 학습된다. 이때 각 모델은 이전 모델이 잘못 분류한 샘플에 집중하여 학습

    기업 내부 데이터 베이스 관련

  • CRM

  • EAI

  • ERP

    빅데이터 활용 기술과 사례
    = 연관 분석 : 맥주를 구매하는 사람이 기저귀도 구매

  • 회귀 분석: 품목의 편ㅇ점이 품목이 구매될 가능성 영향

  • 유전 알고리즘 : 방송 시간 편성, 택배 차량 배치

    빅데이터 활용 필요 3요소

  • 데이터, 기술 ,인력

    인공신경망 분석기법

  • CNN

  • RNN

  • ANN

    Q빅데이터 시대 위기 요인

  • SNS 여행 글로인해 강도침입

  • 휴식 중 범죄 예측 프로그램에 의한 체포

  • 갑자기 알지 못하는 사이트에 가입되었다는 안내문자수신

    전략도출 가치기반 분석 중요 이유

  • 해당 부서 혹은 해당 부서를 넘어선 전사적인 새로운 기회 포착

  • 급변하는 환경에서 빠르게 고객의 니즈를 파악하는 등 전술적 활용

  • 경쟁사보다 더욱 경쟁력을 키울 수 있느 새로운 방안 발견

빅데이터 본질적 변화

  • 인과관계에서 상관관계

기계학습

  • 사용자중 비슷한 성향의 사용자를 파악하고 비슷한 성향을 가진 사람들이 이용하는 서비스를 제공

빅데이터 가치선정이 어려운이유

  • 데이터 반복적 재사용
  • 2차적 목적
  • 순서정보가 방식에 영향을 주는것

데이터 분석 기초 가치 창출

  • 핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁 전략과 밀접하게 연관된다
  • 전략적 분석과 통찰역의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다
  • 기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 기반 분석의 가장 중요한 목표는 아니다
  • 복잡한 분석이 쓸모없는 비즈니스 모델을 뒷받침 가치창출 x

비즈니스 분석 적용 효과적인 분석 적용 대상 검토

  • 사업적 잠재력뿐 아니라 데이터 및 필요한 자원이 이용가능하지를 고려해 대상을 택한다
  • 조직이 분석을 배우는 동안에 분석의 노력을 가능한 한가지에 몰두
  • 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려
  • 무엇이 가능한지 발견하기 위한 실험을 망설이지 말고 분석 기회에 대한 직관을 무시하지 않느다

데이터 사이언티스트가 효과적인 분석 모델 개발 위해 고려 사항

  • 분석모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 돌아보고 분석을 경험과 세상에대한 통찰력과 함께 활용
  • 가정들과 현실의 불일치에 대해 끊없이 고찰하고 의구심
  • 분석의 객관성에 의문 제기 해석의 개입등의 한계를 고려
  • 범위 내에서만

오류설명

  • 부정확한 가정 테스트x 로직오류
  • 결정에서 분석과 통찰력 고려x 프로세스오류
  • 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것은 프로세스 오류
  • 대안을 진지하게 고려하지 않는 것 프로세스 오류

기업 내부 데이터 활용

  • CRM
  • ERP
  • KMS

-ITS 관련 X

빅데이터가 만들어 내는 변화

  • 최대한 많은 데이터를 모으고 다양한 방식 조합
  • 데이터 규모 증가함에 따라 사소한 오류 데이터는 분석결과에 영향 X
  • 인과관계 규명 없이 상관관계 분석결과만으로도 인사이트를 얻고 이를 바탕으로 수익 창출 기회가 늘어나고 있다

아래 빅데이터로 달성할 수 있는 경영혁신의 시작 단계에서 궁극단계
1. 생산성향상
2. 발견에 의한 문제해결
3. 의사결정 향상
4. 새로운 고객가치와 비즈니스 창출

소비자 프라이버시 3대 권고 사항

  • 상품 개발 단계에서부터 소비자 프라이버시 보호 방안 적용
  • 소비자에게 수집된 정보 내용 공개 및 접근권 부여
  • 소비자에게 공유 정보 선택 옵션 제공

데이터

  • 1바이트는 0 255정수표현 데이터 크기
  • 영어 한글자는 1바이트 저장 한글 한글자는 2바이트
  • 수치 데이터는 용량이 증가하더라도 텍스트 데이터에 비해 dbms에서 관리 하기 용이

데이터웨어 하우스 특성

  • 데이터들은 전사적 차원에서 일관된 형식으로 정의
  • 시간의 흐름에 따라 변화하는 값을 저장
  • 특정 주제에 따라 데이터들이 분류 저장, 관리된다
  • 주제지향성, 데이터통합, 시계열성, 비휘발성

빅데이터 출현 배경

  • 하둡과 같은 분산처리 기술의 발전
  • m2m,lot과 같은 통신 기술의 발전
  • 트위터, 페이스 북 sns 급격 확산

구글 번역 서비스 활용 빅데이터

  • volume

빅데이터

  • 비즈니스 핵심에대 객관적이고 종합적인 통찰을 줄 수 있는 데이터 확보 필요
  • 더 많은 정보가 더 많은 가치 창출 X
  • 빅데이터 과제와 관련 주된 걸림돌은 비용이 아니다
  • 경쟁의 본질을 제대로 바라보고 분석활용이 더 중요

데이터베이스

  • 통합된 데이터
    다양한 방법으로 필요한 정보를 검색할 수 있느 검색 가능성을 가진다
  • 데이터 베이스는 변화되는 데이터로 삽입,삭제,갱신에도 항상 현재의 정확한 데이터 유지해야한다

구글의 NGRAM VIEWER

  • 현미경

빅데이터 위기요인 통제

  • 개인 정보의 가치가 증가하고 기술발전으로 사생활 침해 가능성도 함께 증가하고 있기 때문에
    개인 정보 활요에 대한 가이드 라인 제정 요구 급증
  • 데이터 오용위기 대응책으로 알고리즘에 대한 접근권 보장 필요
  • 특정인이 채용이나 대출,신용카드 발급여부결정 불이익 당할 가능성을 최소화ㅘ는 장치 마련 필요
  • 동의 → 책임제: 사생활 침해

전략적 통찰력을 얻기 위해 분석을 사용하는 방법

  • 비즈니스 핵심가치와 관려된 분석 프레임워크와 평가지표를 개발하여 사용

  • 분석이 경쟁의 본질을 제대로 바라볼수 있도록 큰그림

    정보

  • 평균 구매액

  • 베스트 셀러

  • 우량고객

분석테크닉

  • 기계학습은 대규모 데이터 처리 분섟할때 상당한 분석 인프라와 많은 시간이 소요될 수 있다
  • 한국어의 경우 그 언어적 특성으로 인해 감정 분석에 상대적으로 어려운 측면이 있다
  • 소셜 네트워크 분석은 최근 핀테크 기업에서 대출을 제공할 때 활용되고 있다

-개인 신용평가 → 회귀분석

뛰어난 데이터 사이언티스트

  • 정량 분석이라는 과학과 인문학적 통찰에 근거한 합리적인 추론을 조합한다

데이터 웨어하우스

  • 기업내 의사결정 지원 어플리케이션을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장공간
  • ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규액에 따라 정보를 변환 후에 데이터웨어 하우스에 정보를 적재한다
  • 데이터 웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지한다

-재무,생산.운영과 같이 부서별 또는 업무 기능별 특정 주제 중심으로 구축되는 것은 데이터 마트

내부프로세스 분석활용기법

  • 최적화: 일부 변수값이 반드시 정수, 한정된 자원으로 특정 목적을 달성하는 솔루션을 내놓은 효과적인 할당을 의미

  • 몬테카를로 시뮬레이션: 특정결과 혹은 위험이 발생할 확률을 평가하고 계산 기법으로 수학적 모델을 통해 가설 사건을 여러 차례 실험하고 미리 정해진 확률 분포와 비교

  • 신경망 분석: 투입요소들을 구한 할때까지 반복해서 학습

  • 추정치로 수익예측 : 베이스 추론

ERP : 기업 전체를 경영자원의 효과적 이용이라는 관전에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템


데이터 분석기획

분석 수행 앞선 고려사항

  • 유사한 분석 케이스 확보
  • 분석 장애 요소 파악
  • 활용 가능한 데이터 파악

분석 대상 명확, 분석 방법 명확x

  • 해결책 필요

의사결정 방해요소

  • 고정관념, 프레이밍 효과 , 편향된 생각

분석 방법론 구성요소

  • 상세한절차
  • 방법
  • 도구와 기법
  • 템플릿과 산춟물

CRISP - DM 방법론 모델링 단계 수행 태스크

  • 모델 테스크 계획 설계

  • 모델링 기법 선택

  • 모델 평가
    적용성 X

    분석기획 단계 3가지 과정 순서

  • 비지니스 이해 및 범위 설정 - 프로젝트 수행계획 수립 - 데이터 분석 위험 식별

    하향식 접근법

  • 문제 탐색 단계에서 유스케이를 우선적으로 고려한다

    프로젝트 관리에 대한 설명

  • 프로젝트 결고로 얻는 산출물은 보고서와 시스템 두가지 유형이 있으며, 그에 따른 프로젝트 관리도 다르게 수행된다

  • 분석 과제 수행에 있어 사전에 위험을 식별하고 대응방안을 수립해야한다.

  • 분석과제는 적용되는 기법에 따라 범위가 변할 수 있어 관ㄹ가 중요

  • 일정 계획을 수립할 떄 최기에 의도했던 결과가 나오기 쉽지 않아 TIME BOXING 기법을 ㅗ일정 관리를 진행할 필요가 있다

    분석 과제 관리를 위해 추가적으로 고려 5가지 속성

  • 데이터 양, 데이터 복잡도, 분석 속도, 분석 복잡도, 정확도 &정밀도

    성숙도 통합 모델 (5단계)

  • 능력 성숙도 통합 모델은 소프트웨어 및 시스템 공학의 역량 성숙도를 파악하기 위한 모델이다

  • 1단계 수준에서는 개인의 역량이 프로젝트의 성공 여부를 결정한다

  • 2단계와 3단계의 가장 큰 차이는 조직을 관리하기 위한 전사 차원의 표준 프로세스 존재 여부다.

    분석 마스터플랜 수립에서 과제 우선 순위 결정 내용

  • 적용 기술의 안전성 검증은 기술 용이성의 평가요소다

  • 전략적 중요도는 전략적 필요성과 시급성의 두가지 요소로 선별한ㄷ.

    분석 준비도 구성요소

  • 분석 업무 파악 진단: 1. 예측 분석 업무, 2. 최적화 분석 업무 3. 분석 업무의 정기적 개선

    분석 성숙도 활용단계

  • 비즈니스 부문에서 미래 결과를 예측

    데이터 지속 적용 및 분석 거버넌스 체계 구성요소

  • 분석관련 시스템, 데이터, 분석 과제 기획

    데이터표준화

  • 데이터 거버넌스 체계에서 데이터 표준용어 설정, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 등의 업무 구성

    과제 관리 프로세스

  • 과제 발굴에서 가장 중요한 단계는 인력을 구성하는 팀 구성의 단계

  • 분석 과제가 종료되어도 지속적인 모니터링 작업 필요

  • 분석 과제 관리 프로세스를 진행하는 이유는 지속적인 분석 니즈를 파악하고 분석을 수행함으로써 기업 내 분석 문화가 내재화되기 위함

    분석교육

  • 기업 내 모든 구성원에게 분석 기반의 업무를 정착시키는 것이 목적

  • 분석기획자는 분석의 효율적인 설계를 위한 큐레이션 교육이 요구

  • 분석 실무자에게는 직접적인 데이터 분석 및 도구의 교육이 요구된다

    경쟁자 확대 관점의 분석기회 발굴 영역

  • 경쟁자

  • 대체 상품

  • 신규 진입자

    빅데이터 분석 방법론의 분석기획 단계 태스크

  • 비즈니스 이해 및 범위 설정

  • 프로젝트 정의 및 계획 수립

  • 프로젝트 위험 계획 수립

    분석 준비도 분석업무 파악 항목

  • 예측 분석업무

  • 최적화 분석업무

  • 시뮬레이션 분석 업무

    분석 준비도 성숙도 진단: 업무 기법부족, 준비도 높은 기업 형태

  • 도입형

    데이터 거버너스: 저장소 관리에서 수행하기 적절한 업무

  • 사전영향 평가

    지속적인 반복과정을 통해 완성도를 높여가는 개발 방법 복잡도 상승 프로젝트 진행어렵

  • 나선형 모델

    CRISP-DM 에서 노이즈 결측치를 식별하고 제거한 뒤 데이터셋 선택 업무 단계

  • 데이터 준비

분석 마스터 플랜 수립 우선순위 결정

  • 우선순위 결정을 위해 포트폴리오 사분면 활용
  • 일반적인 우선순위 평가는 전략적 중요도와 실행 용이성에서 결정
  • 우선 순위 선정 절차는 분석 과제 도출 우선 순위평가, 우선순위 정렬
  • 기간 및 입력 투입 용이성 정도는 실행용이성의 투자 용이성 평가 요소

하향식 기존 시스템으로 분석가능한경우 기업이 검토해야하는 항목

  • 기존 시스템 개선 활용

기능형 구조

  • 각 부서가 분석 조직을 갖추고 분석을 직접 수행하는 구조로, 각 분석을 위한 업무에 대한 전문성은 갖추었지만 전사적인 차원에서 핵심적인 분석이 어렵다는 단점

데이터 거버넌스 구성 요소

  • 원칙
  • 조직
  • 프로세스

분석 방법론 모델

  • 나선형: 시스템 개발에 있어 위험 최소 위해 분석과 개발 및 평가의 단계로 지속적 반복, 기간이 길어진다.
  • 프로토타입: 사용자 관점에서의 개발로 지속적인 개선 사항을 요구하는 방법

분석 과제 발굴 하향식 접근법

  • 문제가 무엇인지 인식하고 하고 있는 경우 opimization → solution의 과정 수행
  • 문제 탐색단계에서 비즈니스 모델 기반의 문제 탐색과 외부 사례 기반의 문제 탐색 수행
  • 더 넓은 범위의 문제 탐색을 위해 거시적 관점 경쟁자 확대 시장 니즈 탐색 등 추가적인 문제 탐색을 수행한다.
  • 문제 탐색이 수행되면 탐색된 문제들을 데이터 관점의 문제로 변환하는 것이 하향식 접근법의 2번째 순서인 문제 정의 단계이다.

하향식 타당성

  • 탐색한 여러방안중 가장 효율적인 방안을 찾기위한 단계
  • 경제적 타당성에서 roi 관점에서 접근한다
  • 기술적 타당성에ㅓ는 데이터 존재 여부 및 분석 역향을 파악한다

분석 역랑 및 분석 기법을 고려한 해결 농반 모색은 하항식 접근법의 해결 방안 탐색 단계에서 수행히는 과제다.

CRISP-DM 분석 방법론의 업무 이해 및 데이터 이해 단계

  • 데이터 준비 의 이전단계로 업무 이해와 데이터 이해단계 사이의 피드백이 가능하다.

데이터 거버넌스 목적

  • 데이터 표쥰화 작업은 데이터 표준용어 설정, 명명 규칙 등 데이터 표쥰 규격을 잡는 단계이다.
  • 데이터 관리체계 단계의 주요 수행과제 중 하나는 생명 주기 관리 방안 수립
  • 데이터 저장소 관리 단계에서 데이터 구조 변경에 따른 사전 영향 평가를 수행

기업 의사결정 분석업무 기업 문화 정착 → 분석 거버넌스 목적

KDD 분석 방법론

  • 데이터 셋 선택 단계에서 비즈니스 도메인 이해 필수
  • 데이터 전처리 단계에서 데이터가 추가요구될 경우 데이터셋 선택 재실행
  • 데이터 마이닝 단계에서 기법을 선택하고 수행
  • 데이터 이상값 결측값 식변은 전처리 단계에서

프레이밍 효과

  • 분석에 대한 결과의 해석은 언제나 인간의 개입이 필요하지만 결과를 해석하는 두사람이 완전히 다른 결론을 내는 문제를 의미

    빅데이터 분석 방법론 피드백

  • 데이터 준비단계-데이터 분석 단계

    분석과제 발굴

  • 분석과제는 이해관계자들이 이해할 수 있도록 프로젝트의 수행 목적에 알맞은 과제 정의서 형태로 도출된다

  • 대규모 데이터가 빠르게 생성되고 변화하는현대 사회에는 문제 정의가 어렵기 때문에 다양한데이터의 조합 속에서 인사이트를 찾아내는 것을 상향식 접근법이라고 한다

  • IDEO사의 디자인 씽킹 프로세스는 비즈니스와 기술, 그리고 인간 중심 사고가 만나 혁신적 해결책을 도출하는 방법을 의미한다.

  • 문제가 주어졌을 떄? 각 과정을 체계적으로 해결 → 디자인 띵킹

    빅데이터 분석 방법론의 분석기획 단계에서 수행해야하는 업무

  • 비즈니이해 및 범위 설정

  • 프로젝트 정의 및 계획 수립

  • 프로젝트 위험 계획 수립

    분석데이터 정의 → 데이터 준비 단계


데이터 분석

R

  • 무료 오픈소스로 사용자간 패키지와 최신기술 공유가 쉽다
  • 인터 프리터 언어로 라인별 문자 실행
  • 독립적으로 재활용 가능한 여러 모듈로 구성되어 설치용량이 적다

오른쪽 하단 기타창

  • 도움말

  • 현재 디렉터리 파일

  • 시각화 자료

    R 데이터 구조

  • 리스트에 저장되는 모든 데이터는 서로 다른 형식의 데이터를 저장

  • 데이터 프레임은 여러 개의 벡터로 구성되어 각열이 다른타입을 가질 수 있다

  • 데잍 프레임은 가장 많이 사용되는 구조 중 하나로 RDBMS에서 테이블과 유사한 형태

    na값 포함 계산
    → na

    plot 함수 보유 매개 변수 사용

  • type = 'n' - none의 약자로 plot 위에 어떠한 결과도 출력하지 않는다

  • col = 'red' - plot 위에 출력되는 점 또는 선을 빨간색으로 지정

  • main = 'mydata' - plot 의 메인 이름을 mydata로 지정

  • xlim 은 x 축제한 매개변수 xlim = c(1,10)으로 표현

    평균 3, 표준편차2 정규분포 10개 데이터 추출

  • rnorm(10,3,2) ( 데이터 개수, 평균, 표준편차)

    EDA

  • 데이터 분석을 수행하기 전 데이터의 이해는 무엇보다 중요하다, 그에 따라 데이터의 기초 통계량 값을 확인하고 다양한 관점에서 데이터를 바라보며 데이터를 이해하기 위한 목적으로 수행하는 작업을 말한다

    단순대치법 결측값 처리

  • college <- copy_college[complete.cases(copy_college).]

    비례 층화 추출법

  • 모집단의 구성 비율을 반영한 표본집단을 생성하기 위해 모집단을 여러개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 집단으로 표본을 추출하는 방법

    이산형 확률 분포

  • 포아송 분포

  • 기하분포

  • 베르누이 분포

    기하분포

  • 발생할 수 있는 사건이 0과 1로 두개인 확률 분포를 n번 시행할 때 처음으로 성공인 시행이 나올떄까지 시행할 확률

    유의확룰

  • -기각 여부 판단

    명목척도에서 상관계수를 구할 수 없다

    다차원척도법

  • 데이터를 저차원 공간에 배열하는 시각화 기법

  • stress 값이 0인경우 적합이 잘된것

  • 데이터의 변수는 연속형 또는 서열척도

  • 선형회귀 식을 산출 x

    주성분 분석

  • 변수 요약기법으로 기존 데이터의 선형 결합으로 주성분을 생성한다

  • 누적기여율 70~90되도록 주성분 개수 선택

  • n갸의 변수를 n개의 주성분으로 요약할 때 누적기여율은 100

  • 손실되는 정보가 최소가 되도록 분산이 가장 큰축을 찾는다

  • 회귀분석에서 다중공선성의 존재로 변수간 해석어려움 → 주성분분ㄱ석을 활용하여 다중공선성의 문제 해결

    자기회귀모형

  • n개의 이전 시점 자료들로 설명가능하다는전제로 적절한 n값읍ㄹ 찾는 pacf그래프 활용

    분해시계열 요인

  • 추세요인

  • 순환요인

  • 불규칙요인

  • 계절요인

    오즈값은 5배가 아닌 5제곱으로

    종속변수가 범주형일 경우 카이제곱, 지니지수 엔트로피지수
    연속형일 경우 f통계량, 분산의 감소량 사용

    정자규칙

  • 너무 많은 분리기준을 보유한 의사결정나무는 일반화의 어려움이 있을 수 있는 과적합 문제 발생 .. 이를 해결하기 위해 특정조건 도달 나무 성장 ㅁ멈춤

    앙상블 분석

  • 배깅은 원본 데이터의 붓스트랩을 활용하여 여러개의 모ㅕㅇ을 만들고 보팅에 의해 최종결과를 찾아낸다

  • 붓스트랩이란 기존데이터와 같은 크기만큼의 표본을 복원추출하여 만들어낸 새로운 표본집단

  • 앙상블 분석의 주 목적은 여러개의 분류기를 제작하여 하나의 분류기에서 오는 낮은 신뢰성을 높이는 것

    랜덤포레스트는 이상값에 민감하지 않다

    인공신경망

  • 은닉층과 노드수가 많으면 과적합 , 적으면 과소 적합 발생가능성

  • 발생한 오차를 줄이기 위해 역전파 알고리즘을 사용하여 가중치 수정

  • 역전파에 의한 가중치 수정 작업 중 가중치의 절대값이 커져 과소적합이 발생하는 것을 포화문제

  • 다수의 은닉층을 보여한경우 시그모이드 사용 기울기 소실 문제

    범주형 데이터 거리 측정

  • 자카드 거리, 코사인 거리

    계측적 군집분석에 대한 설명

  • 범주형 데이터에서도 거리측정이 가능하므로 분석기법을 적용할 수 있다

  • r에서 최장연결법으로 수행하기 위해서는 complete를 사용한다

  • 최장연결법 새롭게 생성된 군집 내의 데이터들과 군집 밖의 데이터의 거리 중 가장 먼 거리를 군집과 데이터의 거리로 사용한다

  • 와드연결법은 군집 내 편차 제곱합이 최소가 되도록 연결

    거리 측정 기본갑 ㅅ 유클리디언 ㄱ리

    탐욕적 알고리즘

  • 언제나 안정된 군집을 도출할 수 있으나 최적으로 군집화 되었는지 알수 없다

    정보보안 거버넌스(it 거버넌스에 포함)

  • 정보보안 거버넌스는 기업의 정보보안 전략을 정보보안 자원에 전략적으로 연계하는것을 목적

  • 정보보안 거버넌스는 정보를 보안하는 리더쉽, 조직구조, 프로세스로 구성되어 있다.

  • 정보보안 거버넌스 3요소 데이터 무결성, 서비스 연속성, 정보자산 보호

    분석 체계 구현

  • 분석을 위한 필요 데이터를 수집후 분석 모델을 설계

  • 준비된 데이터를 모델에 적용하고 평가

  • 반족정련하여 분석 모델 최적화

  • ㅎ확보 - 설계 - 적용- 평가 - 최적화

    프로세스 혁신의 방향

  • 비즈니스 모델의 시나리오 기반으 ㅣ하향식 접근

  • time to market 신속성 관점의 업무 효율화가 아닌 quality to market 최적화 관점 업무 처리

  • 업무 프로세스의 실행 시점에 필요한 action을 강제화 할 수 있도록 분석의 프로세스 내재화 관점의 접근

    업무프로세스 내재화

  • 정보계 분리, 분석기법 교육받아 batch성 선택으로 참조했던 분석을 프로세스의 실행 시점에 내재화하여 분석 및 의사결정이 강제적으로 이어지도록한다

  • 집계성데이터, 주기적을 수집되는 과거 데이터 중심 분석보다는 실시간 발생 데이터 중심의 분석 수행

  • 이벤트 발생으로터 실행까지의 프로세스 상의 의사결정 지연최소화 및 변화하는 신규 비즈니스 요건 대응의 민첩성을 확보

  • 분석은 구조적비구조적 반구조적 포함

비즈니스이벤트 의사결정 최적화 장애요인

  • 데이터지연
  • 분석지연
  • 의사결정 지연

분석 선순환 구조맵

  • 분석 모록을 선택과 결과로 모델링하여 연관성을 파악하고, 각 분석에 따른 결과 요소들 간의 상층요소가 있는지 등을 확인하기 위해 활용하는 도구

집중형 분석 조직

  • 전사분석 업무를 별도 독립된 분석 전담조직에서 담당한다
  • 전략적 중요도에 따라 분석 조직이 우선 순위를 정하여 추진가능하다
  • 현업 업무부서의 분석업무와 이중화 또는 이원화 가능성 높음

신속한 action ◇ 분산형

빅데이터 품질관리

  • 이미 생성된 데이터 정제가 어렵다

  • 개별 데이터에 대한 타당성 검증은 경우에 따라 불필요하다

  • 혹시 발생할지 모르는 데이터 사용자의 오류는 무시할 수 있다

  • 오너쉽은 거버넌스에서 관리 통제

빅데이터 보안

  • 개인정보 외 민감성 데이터는 용도가 명확하고, 경우에따라 사용 불가
  • dbms에 저장 필요없는 분석을 위한 일회성 데이터에 대한 보안 검사는 경우에 따라 불필요
  • 기관 또는 기업간 연계를 통해 공유된데이터 또는 분산 데이터에 대한 보안검사는 경우에 따라 불필요
  • 80퍼 이상 차지하는 비정형데이터에 대한 보안 필요

분석기회 찾는 방법 3가지

  • 기업의 비즈니스 모델 분석을 통해 경쟁력 강화를 위한 핵심 분석기회를 식별하는 방식
  • 특정 대상 프로세스를 검수한 후 업무 주제절 요건 식별
  • 제공되는 산업별 , 업무별 서비스별 테마 후보 풀의 벤치마킹을 통한 분석기회 식별

모든 데이터 분석은 비효율적

경영진의사결정 사항

  • 정책
  • 자산
  • 거버넌스

분석성숙도 확산 단계

  • 전사차원에서 분석을 관리하고 공유

  • 분석 전담 조직을 운영하고, 데이터 사이언티스트를확보

  • 전사 성과의 실시간 분석이 가능하고, 분산 규칙 및 이벤트를 관리

  • 분석을 위한 협업 환경 구현 및 프로세스내재화 → 최적화단계

분석 업무 프로세스 내재화 고려요소

  • 어떤 프로세스에 어떤 분석요소를 내재화
  • 분석 알고리즘(로직)을 어떻게 설계할 것인가
  • 분석 결과를 시각적으로 즉시 인지하고 행동할 수 있게 어떻게 구성할 것인가
  • 개인화된 분석결과를 제공하고, 쉽게 동료에게 전달하여 커뮤니케이션 할 수 있는가
  • 독립된 정보계와 달리 업무운영 시스템에 내재될 수 있는 융합성을 가지는가
  • 기업 외부에서 접근을 위한 보안과 다양한 플랫폼이 제공되는가
  • 대용량 데이터에 대해 필요한 시점에 적합한 속도로 분석을 제공하는가
  • 기업 내외부에서 산재한 구조하 및 비구조화 된 데이터 소스에 접근할 수있느가

데이터 구현을 휘한 로드맵 수립시 고려사항 (분석적용)

  • 기술 적용 수준

  • 분석 데이터 적용수준

  • 업무 내재화 적용 수준

    고객 니즈 4가지

  • 기능적가치

  • 재무적 가치

  • 감성가치

    Activity System Map

빅데이터 분석을 강조하는 이유

  • 발빠른 기업이 돈을 번다 . 빠르게 행동하기 위해 예측하고 본다
  • 프로세스를 똑똑하게 성공 dna가 필요하고 업무에 내재화
  • 자사만의 고유한 분석 방식의 적용 및 노하우의 축적은 타 기업이 쉽게 복제할 수없는 차별화

업무 프로세스 내재화

  • 정보계로 분리되어있고, 분석 기법을 교육 받아 배치성으로 선택ㄱ적으로 참조했던 분석이 프로세스의 실행 시점에 수행되어 의사결정이 강제적을 이어지도록하는 방법
  • 이벤트 발생으로부터 실행까지 프로세스 상 의ㅏ결정 지연 최소화 및 변화하는 신규 비즈니스 요건 대응의 민첩성을 확보할 수 있음

분석 전담조직

  • 전사 분석과제를 발굴 및 구체화, 과제 적용을 우선 순위를 적한다
  • 고급 통계 기법을 이해하고, 다양한 분석 모델을 설계하고 검증한다
  • 조직 내 분석 문화 확산을 위한 교육 및 변화관리 활동을 수행한다

business intelligence 기대사항

  • 과거 성과를 측정하고 비즈니스 계획에 참고할 수치를 사용할 수 있다
  • 과거에 무슨일이 발생했는지 어디에 얼마나 많이 얼마나 자주 문제가 있었는지 무슨 액션이 필요한지 등에 대한 답을 얻을 수 있다
  • 사용자는 모든 데이터에 접근하여 사용할 수 있어, 데이터를 EDW에 축적해 두면 사용자들이 가공해서 유용한 정보를 산출할 것이다

분석과제의 우선 순위 결정

  • 과제의 시급성과 난이도
  • 비즈니스 효과
  • 투자 비용요소

데이터 분석 도입의 성공요소

  • 핵심분석을 발굴하고 이를 점진적으로 확장한다
  • 분석 업무 의사결정 프로세스를 정립한다
  • 의사결정을 위한 분석도구를 업무에 내재화해 강제적으로 실행하게 한다

상향식 접근방식에서 특정 업무 영역의 주제 지향적 분석기회 발굴 절차

  • 프로세스 분류 - 프로세스 흐름 분석 - 분석 요건 식별 - 분석요건 정의

분석기회 구조화

  • 유저스토리 정의
  • 목표가치를 구체화
  • 분석 질문을 상세화

문자형 벡터

  • 숫자, 문자, 논리 연산자 모두 포함

LGBM

  • 속도가 느리다는 단점개선 leef- wise 방법

스피어만 상관ㄱ{수

  • 대상 : 서열척도

피어슨

  • 등간, 비율

부호검정

  • 비모수적 방법 짝지어진 두개의 관찰치의 크고 작음에 대한 가설 검증

F- 검정

  • 표본 분산에 대한 차이 검정

  • 회귀 모형의 통계적 유의성 확인

    지니지수

    1- (30/50)^2 - (20/50) ^2 = 1200/2500 = 0.48

주성분 분석

  • 상관관계가 있는 변수들을 선형 결합해 상관관계가 없는 변수로 축약하는 방법
  • 공분산 행렬 사용하는 경우 고윳값이 1보다 큰 주성분의 수를 사용
  • 공분산 행렬을 사용하는 경우 변수들의 측정 단위에 민감하다
  • 분산이 가장 큰 축을 제 1주성분으로 설정

bic 그래프 값이 최대가 되게하는vei 그래프의 x좌표값이 최적의 군집수

box plot

  • 관측치 수 확인 불가

CART

  • 목표변수가 이산형 : 지니지수
  • 연속형: CART ( 분산감소량을 사용하는 의사결정나무 알고리즘 )

고객파산여부 예측

  • 분류모델 필요

설문조사 ) 만족 불만족

  • 서열 척도

앙상블 분석

  • 지도학습
  • 상호연관성높으면 과적합을 해결할 수 없다

기울기 소실

  • 다층 신경망에 은닉층이 너무 많아 역전파 과정에서 은닉층의 가중치 조정이 이루어 지지 않고 학습이 제대로 이루어지지 않음

FP-Growth

  • 연관규칙에서 후보빈발집합을 생성하지 않고 연관 규칙을 발견하도록 고안된 알고리즘

향상도
a,b 동시 거래수 전체거래수 /a포함거래수 b포함 거래수

공분산

  • 두 변수 사이의 선형관계 측정

  • 데이터를 표준화하지 않아 변수 사이 관계의 강도를 확인할 수 없다

  • 공분산을 통해 변수사이 관계의 방향 확인

  • 범위는 음의 무한~ 양의 무한

    가설검정

  • 귀무가설은 모집단에 대한 특징을 나타내는 가설로 일반적으로 ~와 같다로 정의

  • 대응표본 t검정의 경우 비교하고자하는 두 집단의 크기는 반드시 같다

  • 표본조사를 통해 가설 검정을 수행하기 때문에 모집단을 정의할 수 없는 경우에도 활용 가능하다

  • 제 1종,2종 모두가 최소가 될 수 없기에 제 1종 오류가 허용하는 최소한의 확률을 설정하는데 이것이 유의수준

som 선택된 프로토타입 벡터

  • best matching unit (BMU)

이 표본 t검정

  • 하나의 기업이 같은 제품을 두개의 판매경로를 통해 판매
  • 외환위기 매출이 더 적은 판매경로 폐쇄 결정 두 판매경로 비교

행렬

  • 2차원 데이터 구조로 각열이 모두 같은 데이터 타입 구조

data = 1234 data + 5
= 6789

가설검정

  • 가설 종류에는 귀무가설과 대립 가설이 있다
  • 일반적으로 귀무가설은 ho
  • 유의수준은 제 1종 오류를 허용하는 최대 확률

연관분석 척도

  • 지지도가 높으면 해당 품목의 판매는 자주 발생

  • 향상도가 크면 같이 진열될 때 더 잘팔린다

  • 지지도, 신뢰도, 향상도 모두 크면 연관규칙이 의미가 있다

  • 신뢰도가 크면 두 품목을 같이 진열했을 때 기대 수익 크다 x

    의사결정 나무

  • 목표 변수가 연속형인 경우, 회귀 나무를 활용한다

  • 정자규칙과 가지규칙을 통해 가지의 과접합을 방지한다

  • r에서 rpart패키지를활용하여 의사결정 나무를 수행할 수 있다.

  • cart 알고리즘 지니지수 / c4.5 엔트로피지수

    붓스트랩

  • 복원 추출에 의해 생성되는 표본집단으로 모집단과 동일 크기

    분산분석

  • 두개 이상의 집단에 대하여 평균을 비교하는 가설검정

    결측값 출력

  • data[1:2]

    가설 기각 평균값 정의 x

    ESD

  • 이상값의 판단 기준으로 평균으로부터 표준편차 3을 기준으로 한다

    K-NN ( k-near````)

  • 분류분석 혹은 회귀 분석에 사용되는 방법이지만 주변 k개의 데이터를 탐색하여 다수결 방식에 의하여 결측값을 대체하는 결측값 처리 방법으로도 활용

    주성분분석

  • 전체데이터 70%

  • 각 주성분은 기본 변수들의 선형 결합

  • biplot을 활용 주성분 결과 시각화

  • n개 이하 변수

    비모수적 방법

  • 모집단의 분포에 대한 가정없이 통계적 추론

  • 자료를 순서대로 나열하여 각 순위를 활용한 분석 기법을 순위검정

  • 전체 자료에서 중앙값을 뺐을 때 그 값이 양수인지 음수인지 검정 부호검정

  • 비모수적 방법은 평균과 분산 활용 x

    sd 는 포본 표준편차

    조건부확률

  • p(x|y) = p(x∩y) / p(y)
    p(x∩y) = p(x) + p(y) - P(x∪y)

    plot 함수

  • main을 활용하여 산점도에 이름을 지정

  • xlim을 활용하여 x축의 범위를 정할 수 있다

  • type = 'n' 아무것도 나오지 않는다 none

  • col을 사용하여 산점도의 색을 지정할 수 있다

    왜도가 양수

  • 오른쪽 긴쪼리

  • 정규분포 뽀죡

  • 최빈값은 중앙보다 작다

  • 평균은 중앙보다 크다

    x와 x2 → 다항회귀

    추출법

  • 층화추출은 모집단을 여러개의 집단으로 나누어서 표본을 추출하는 방법

  • 집락 추출: 집락간 동질적이며, 집락내 이질적인 특성

  • 계통 추출: 모집단의 자료들에 번호를 부여후 일정 간격으로 표본을 추출하는 방법

  • 데이터 표본추출 방법은 통계적 추론을 위한 중요한 사전작업이므로 적절한 표본 추출방법

군ㄴ집분석

  • hclust 기본값 complete 최장연결법
  • 맨해튼거리 = 시가거리

통계적 추론

  • 점추정: 표본집단으로 찾아낸 모수가 될 수 있는 특정값
  • 구간추정: 표본집단으로 모수가 포함될 범위 파악
  • 구간추정으로 얻은 범위에 모수가 포함될 가능성 → 신뢰도
  • 신뢰도 값이 커질수록 구간 추정의 범위 커진다

표준화값

  • 평균이 0, 표준펀차가 1인 정규분포에서 추출된 2
    (2-0)/1 = 2

  • 펑균이 2, 표준펀차가 4인 정규분포에서 추출된 o
    (0-2)/4 = -0.5

    (추출 - 평균) / 편차

자기상관, 부분자기상관

  • 자기상관 : 시계열 자료에서 현재 시점데이터로부터 특정 시차만큼 떨어진 값들에 대한 상관계수를 함수로 나타낸것

  • 자기상관은 시차가 0 일때 자기 자신과 상관계수를 의미하므로 자기상관함수의 값은 1이다

  • 둘다 시계형 모형 선택하기 위해 사용

  • 부분 자기 상관함수는 현재시점의 값과 시차 n만큼 떨어진 시점에서의 값의 상관계수를 계산할 때 두시점 사이에 존재하는 시계열 자료로 부터오는 영향을 제거한함수

연관분석

  • 순차패턴은 연관분석에서 시간개념을 추가해 미래예측 품목 찾는것

동질성검정

  • 두개의 집단 내부 구성의 비율에 차이를 비교하기 위한 가설검정을 수행하기 위해서 카이제곱 분포를 활용한 동질성 검정을 수행

군집분석종류

  • k means
  • som
  • mod( mixture of normal distiribution) 혼합분포군집

다차원청도법은 통계 분석으로 시각화 기법
(multidimensional scailing)

R

  • 프리웨어x 오픈소스 코드에 접근할 수 없기 때문

표본조사

  • 모집단을 조사하기에 비용 및 시간적 한계가 있어 모집단의 일부분을 조사하여 모집단의 특성을 파악하고자 하는 것
  • 모집단을 특ㅈ벙할 수 없는경우 표본조사
  • 표본 크기가 모수의 구간추정에 있어서 신뢰구간을 좁힐수 있다

신뢰도 값커지면 신뢰구간 커지고 표본크기 커지면 신뢰구간 좁힌다

  • 표본평균과 모집단 평균 동일 가정 필요 x

그룹별 데이터 개수구하기
result (- ddply( test , ‘group’ , summarise , counter = length( value ) )

주성분분석

  • scale = t 분산을 1로
  • center = t 평균을 0으로
  • prcomp 대신 princomp(test,cor = t) 같은 결과

혼합분포 군집
1. 초기모수값 설정
2. 기대값계산
3. 최대가능도 검사
4. 새로운 모수값 설정
5. 최대가능도에 도달하면 알고리즘 종료

R

  • ggplot : r 시각화 라이브러리

  • data.table : 데이터 프레임보다 효율적 데이터 저장, 인덱스 활용 빠른검색

  • party : 의사결정나무를 위한 ctree 지원

  • xml csv 파일

결측치 처리

  • 평균대치법: 변수의 평균으로 모든 결측값 대치

  • 조건부 평균 대치법은 좀더 높은 신뢰도 높은 값으로 대치

  • 결측값이 많은 경우 단순대치법은 막대한 양의 데이터 손실을 초래

  • 다중대치법은 대치, 분석, 결합 순

x1,x2,x3 독립 ,y종속 전진선택법

  • @ step( Im( data = cars, y ~ 1 ) , scope = list( upper = ~ x1 + x2 + x3 ) , direction = 'forward’ )

오즈값

  • 성공을 실패로 나눈값
  • 종속변수 y로 사용 x
  • 이진분류에 적합
  • 독립변수가 여러개 있어도 다중회귀로 종속 변수y의 확률값을 구할 수 있다

앙상블

  • 데이터 분할이 고르지 못할 경우 성능저하, 앙상블은 여러개의 모형결합으로 해결

  • 여러 트리 구성 모형이기에 이상값에 민감 x

  • 랜덤 포레스트는 독립변수의 차원을 랜덤하게 감소 , 독립 변수 선택

  • 보팅: 여러 트리로 부터 얻은 결과값을 다수결 방식으로 최종결과선택

시가거리(맨하튼)

  • 연속형 변수의 거리 측정

범주형

  • 코사인유사도, 자카드계수, 단순일치 계수

roc커브

  • x축은 1- 특이도
  • y축은 민감도
  • 면적값이 1에 가까울수록 성능 우수

상관계수

  • -1~1
  • 피어슨 : 연속형 변수
  • 스피어만 : 순서척도
  • 상관계수는 공분산을 두변수의 표준편차의 곱으로 나눈 값

회귀 분석
lm(linear model)을 활용히여 회귀분석을 수행할 수 있으며, 변수의 입력 순서는 종속변수 ~ 독립변수다 glm은
로지스틱 회귀분석에 사용한다.

기하분포

  • 제비뽑기 5번 기회 3번째 당첨

3차원 이상 구조

  • 배열

지도학습 분류기법

  • 로지스틱
  • svm
  • knn

EDA

  • r코드에서 summary 함수를 통해 데이터의 기초통계량을 확인

종류 다른 데이터 베이스
기존 관계형 데이터 베이스

  • maria DB

nosqldb

  • cassandra
    -mongo
  • hbase

가트너 데이터사이언티스트 역량

  • 데이터 이해
  • 분석론지식
  • 비즈니스요소 초점

반정형 데이터

  • html

  • {'name':'json}

  • 사용자 작성 비정형 데이터

데이터 마트

  • 특정 목적을 달성하기 위해 개인 또는 조직에게 전달되기 위한 최종 데이터 형태

동의에서 책임

  • it 기술 발전 누구나 접근가능 수집가능 악용 사례 빈번

  • 인터넷 기술 및 검색을 분석하여 인터넷 종료 후 정확도 예측

    방법론 생성 과정

  • 암묵지- 형식화- 형식지- 체계화- 방법론- 내재화- 암목지

    데이터 거번넌스 순서

    데이터 표준화 - 관리체계 - 저장소관리 - 표준화활동

    하향식 접근법

  • 최적화에서 해결책

    isp

  • 정보기술 및 정보 시스템을 전략적으로 활용하기 위해 조직의 내외부환경 분석 문제점을 도출하는 등 중장기적 마스터 플랜을 수립하는 절차

    유의확률

  • 귀무가설기각할 때 그 결정이 잘못되었을 확률

시계열 분석

  • 공분산은 시점 t에 의존하지 않고 시차 i에 의존

  • 모든 시점 t에 대해 일정 평균

  • 모든 t에 대해 일정분산

  • 백색 잡음은 대표적 정산성 가정 만족

    과적합

  • 5개의 변수를 갖는 데이터 각 변수에 대한 2차항과 3차항을 만들어 총 15개의 독립 변수를 사용해 설명력을 높였다

  • 분류모델 구축 과적합 x

    향상도 : a →b 구매하지 않았을 때 품목 b를 구매할 확률 대비 a를 구매확률의 증가 비율을 의미한다

붓스트랩

  • 생성할 때 크기는 똑같아야한다

    정밀도

    결측치 처리방법

  • 평균대치법 : 조건부 평균, 비조건부평균 대치법

  • 결측치가 많은 경우 단순 대치법은 손실이 많을 수 있다 권장 x

  • 다중 대치법은 대치 분석 결합 순서로 구성

  • 분류를 위한 k -nn 알고리즘을 사용해 결측값 대치

    자기조직화 지도

  • 가까운 뉴련은 더 가깝게, 먼 뉴련은 더 멀게 군집형성

    k-평균 군집

  • 최단 연결법 존재 x

  • 잡음이나 이상값에 민감하여 평균 대신 중앙값 사용 하기도

  • seed 변경에 따라 데이터들을 다른 군집으로 이동할 수 있다

  • 분석을 수행하기 앞서 사전에 주어진 목적이 없기 때문에 결과의 해석이 어렵다

    데이터 마이닝 특성

  • 군집기법(비지도): expectation maximization algorithim, k-means

  • 연관분석(비지도): apriori algorithm

  • 선형 지도: linear regression

    f-1 score

  • 2ab / (a+b)

    데이터 사이언스 구성요소

  • 수학 및 통계적 지식, it 및 프로그래밍 지식, 분석 대상인 도메인 지식 모두 포괄

  • 위 요인들 외에 스토리텔링, 커뮤니케이션, 호기심 등이 추가적으로 요구된다

  • 기존의 통계학과 다른점은 총체적 접근법을 활용한다는 것이다

  • 효율적인 데이터베이스링을 위해 it 지식 요구 ----- 수학적 x

    like 와 = 는 바꾸어 쓸수 없다

    개인정보 비식별기술

  • 데이터마스킹 : 형식을 유지한채 읽을 수 없는 다른 문자로 대체, 읽을 수 있는 값으로 대체 가명처리

  • 데이터 값 삭제: 해당 변수를 삭제하여 존재하지 않는 것처럼

  • 총계처리 : 기존 값을 해당변수의 전체 데이터 값의 합계나 평균으로 대체

  • 데이터 범주화 : 데이터의 값을 범주화해서 최솟값과 최댓값을 제공

    분석방법론 구성 산출물 예시 및 설명

  • WBS : 업무 분업 구조로 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행기간을 명시한 문서

  • ERD : entity relation diagram 으로 데이터 베이스를 생성하고 데이터베이스내 테이블끼리의 연결관게를 표현한 문서또는 그림

  • 프로그램 목록: 프로젝트를 수행하면서 산출되는 작은 단위부터 큰 단위까지 모든 프로그램을 나열한 목록

  • 데이터 명세서 : 데이터를 관리하기 위한 문서로 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있다.

하향식 접근법

  • 문제탐색, 문제정의 , 해결방안 탐색, 타당성 검토순으로 수행된다
  • 기존의 유스케이스를 최대한 활용하여 과거의 실패를 되풀이하지 않도록한다
  • 해결방안 탐색에서는 기존 시스템 활용 가능 여부와 기업의 역량 여부에 따라 4가지 해결책을 제시할 수 있다
  • 대체재, 경쟁자, 신규진입자 → 경쟁자 확대 관점

랜덤포레스트

  • 랜덤포레스트는 각 트리가 서로 높은 비상관성을 갖는다
  • 여러 개의 의사결정나무로 구성
  • 의사결점나무의 단점인 분산이 크다는 것을 고려하여 배깅보다 더 많은 무작위성을 주어 분산을 감소시킨다
  • 여러개의 트리들의 선형 결합으로 최종 분류기를 만드는 방법

데이터 프레임

  • R데이터 구조 2차원구조 각열이 서로 다른 타입을 가질 수 있으며 정형데이터 분석에 가장 많이 활용

    척도

  • 첨도: 자료의 뽀족한 정도를 나타내는정도

  • 왜도 : 음수이면 왼쪽으로 긴꼬리를 갖는다

  • 분산 : 자료의 모든 데이터에 대하여 평균으로부터 흩어진 정도

    제곱합 그래프

  • k평균군집을 수행할 때 초깃값 seed의 개수 k값을 결정하는 것은 쉽지 않다 . k값을 결정하는 방법

    와드연결법

  • 자료들이 군집화될 때 생성된군집과 군집 밖의 자료의 거리를 계산할 때 군집에 속한 자료의 편차제곱합이 최소가 되는 위치와의 거리를 사용하는 방법

    분산식
    Var(x) = E(x^2) - E(x)^2

    R

  • 오픈소스

  • 활발한 커뮤니티와 다양한 논문 등 자료가 많아 알고리즘 구현이 쉽다

  • 모듈화로 인해 설치 용량이 비교적 적다

  • R은 c언어 아닌 s언어

    score = estimate(intercept) + estimate1a + estimate2b ........

    사후검정방법

  • tukey 검정

  • bonferroni검정

  • fisher'lsd

    주스를 구매고객이 사과를 구매할 확률 ( 신뢰도)

  • 구매율 = 주스+ 주스사과 + 주스 빵 + 사과 주스 빵 / 전체거래수 = 100/200

  • 지지도 = 사과주스 + 사과주스빵/ 전체거래수 = 40/200

  • 신뢰도 = 지지도/ 구매율

    의사결정나무

  • 모델 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움

  • 이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다

  • chaid 알고리즘과 cart 알고리즘이 이산형, 연속형 모두 적용 가능 c4.5는 이산형만 가능

  • 데이터에 대한 선형성, 정규성 등 가정이 필요하지 안흥나, 분류 경계선 근처 자료에 대한 오차가 크다

  • 계산값 - 0.2 활성화함수로 입력하면 relu= max(0,x) 이므로 = 0

    민감도

    • 특이도

    분산팽창계수(vif)

    • 회귀분석에서 독립변수 간의 상호관계가 존재하는지 파악하기 위해 사용되는 지표

데이터 사이언티스트의 요구역량

  • r의 ggplot 또는 matplotlib와 seaborn

  • 빅데이터 분석 방법론

  • 강력한 호기심

    빅데이터 활용 기본 테크닉과 사례

  • 유형분석 : 기업의 경영 상태, 채권 관련 재무 상태 등으로 기업의 파산/ 희생 여부 분류

  • 회귀 분석 : sns 이용 시간 대비 온라인 상에 흩어져 있는 개인 정보 데이터 양의 관계

  • 연과 분석 : a를 시청한 고객이 b를 시청할 가능성을 파악하여 추천여부를 결정

    • 기계학습: 과거 데이터들을 기반으로 컴퓨터가 규칙 및 패턴을 찾고 새로운 데이터에 대하여 결정을 내리는 인공지능의 한종류

    분석마스터 플랜

  • 탐색한 문제에 대한 해결 방안들을 총체적인 관점에서 적용 우선 순위를 설정하기 위함이다

  • 우선 순위 결정을 위해서는 전략적 중요도, roi 관점 등의 요소를 고려

  • 분석 마스터 플랜은 분석과제 도출, 우선 순위 평가, 이행 계획 수립 순서로 수행된다

  • 실행용이성은 적용 범위 및 방식이 아닌 우선순위 고려요소

분석기획 고려사항

  • 분석재료가 되는 사용가능한 데이터의 존재 여부를 반드시 고려해야한다
  • 기존 실패 사례 등 유스케이스를 확보하여 과거의 전례를 밟지 않도록 한다
  • 분석을 수행하는데이 있어 발생 가능한 장애요소에 대한 사전 계획을 수립한다
  • -분석기획 3가지 고려사항은 기용데이터 존재여부, 유스케이스 탐색, 장애요소 사전계획수립이다

확산 단계 평가 요소

  • 전사성과 실시간 분석
  • 분석 coe 운영
  • 분석 전용 서버 운영
    • 대시보드는 활용 분석성숙도 평가요소

R apriori 알고리즘 연관규칙함수

  • inspect가설검정과 그에 대한 설명으로 부적절한것은 무엇인가
  • 분산분석, 두개의 모집단x 두개 이상의 모집단 에 대해서 평균을 비교하기 위한 검정
  • t 검정: 한개의 모집단의 평균을 특정값과 비교하기 위한 검정
  • 동질성 검정 : 두개 이상의 모집단 대해서 내부 구성비가 동일한지 다른지를 검정
  • 대응 검정: 두개의 모집단, 그리고 각 표본이 전과 후로 대응이 되는경우 평균을 비교하기 위한검정

서로 독립 사건 계산

  • 독립이면 anb는 a*b

    다중 공선성

  • 회귀 분석에서 독립 변수 사이에 상관성이 존재하여 회귀식 추정이 어려운 문제

    이산확률: 기하, 다항, 포아송
    연속: 균일분포

    분산 : var = np(1-p)

    cutoff value

  • 데이터 마이닝의 여러 기법들 중 이진 분류를 목적으로 하는 경우 1에 속할 확률 값을 반환하여 yes 와 no로 분류
    모형의 성능에 중요한 영향을 미치며 일반적으로 0.5값을 사용하지만 ues로 분류하기 위한 최소학률 값

    향상도 곡선

  • 성능평가하기 위한 그래프 중 하나로 랜덤모델과 비교하였을 때 일부 상위 데이터에서 모델의 성능이 얼마나 우수한지 평가하기 위한 그래프

일표본검정

  • 야구선수 a의 타율이 3할인지 아닌지 검정
    이 표본 검정

  • 새로 개발한 시약의 효과가 있는지 없는지 검정
    분산검정

  • 한 야구팀에 소속된 타자들의 타율이 모두 비슷한지 아닌지 검정

    포아송분포

  • 이산확률 분포 중 하나로 주어진 시간 단위 또는 공간 내에서 특정 사건이 몇번 발생할지 확률을 나타내는 분포

    사과가 구매될 때 빵이 구매될 확률

  • 사과빵 동시 / 사과만 거래

    일차원적분석과 가치 기반 분석

  • 일차원적 분석은 해당 부서 및 내부 문제에만 국한되지만, 전사적인 성공을 위해서라면 가치기반분석이 수반되어야한다

  • 일차원적 분석을 통해 작은 성공으로부터 분석범위를 보다 넓게 전략적으로 변화를 줌으로써 가치 기반 분석으로 나아가야한다

  • 금융 서비스에서의 일차원적 분석 사례는 신용점수, 사기탐지 등이있다

  • 인구통계학적 변화는 전사적분석에서 고려

데이터 모델링

  • 데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스

    데이터 거버넌스 체계

  • 명명 규칙 수립

  • 메타데이터 구축

  • 데이터 사전 구축

    • 데이터 생명주기 관리방안 수립은 데이터 관리 체계 단계에서 수행한다

능력 성숙도 통합 모델 4단계

  • 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태

    무한히 반복 관측치가 선정되지 않을 확률

  • 36.8

    텍스트 마이닝

  • 분석 대상이 텍스트라는 비정형 데이터 → 비정형 데이터 마이닝으로 분류

  • 단어의 어원을 찾는 작업 : 스태밍

  • 문서요약, 분류, 군집, 추출 등

  • 감정분석 : 오피니언 마이닝

    k평균 군집

  • 한번 군집에 속한 데이터는 seed가 변경되어도 다른 군집으로 이동할 수 있다

  • seed를 결정할 때 기존 군집들의 평균 값보다 중앙값을 활용하여 이상값에 민감한 문제를 보완할 수 있다

  • 탐욕적알고리즘 안정적 군집보장

  • 제곱합그래프로 k값 선정

    회구분석결과

  • 다중회귀분경우 다중공선성의 여부를 판단해야한다

  • 독립변수 유의성 p-value

    의사결정나무

  • 이상값에 민감하지 않으며, 선형성,정규성 등의 가정이 불필요해 가장 보편적

  • 종속변수가 연속형인경우에도 chaid 또는 cart 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.

  • 독립변수 사이의 중요도는 판단어렵

    분산분석

  • 등분산성
    -정규성
    -독립성

    이원분산분석

  • abc 상품 모두 구매 어떤상품 더 만족도 높음? vvip.vip일반고객을 나누어 비교

scm

  • 기업이 외부 공급업체, 물류, 유통업체의 협력을 바탕으로 통합된 정보 시스템으로 연계하여 시간과 비용, 재고를 최적화하기 위한 목적으로 활용하는 데이터 베이스 시스템

    분석기회발굴

  • 경쟁자확대관점 : 대체재, 경쟁자, 신규진입자

분석기회 시 고려사항

  • 가용데이터 고려

  • 적절한 활용방안, 유스케이스 탐색

  • 장애요소

    프로젝트 핵심목표 정의

  • sow

    분석기법

  • 회귀분석 : 지도학습

  • 주성분, 다차원, 군집 : 비지도학습

    통계추론

  • 신뢰도값이 커지면 구간추정길이 넓어진다

    덴드로그램은 시각화 분류모형 x

    분류모형 평가

  • 이익도표, roc커브, 혼동행렬

    ab동시포함/ a포함 : a→b 신뢰도

    백색잡음
    -평균 0 분산이 정규분포

    편향, 분산

  • 모두 최소가 이상적 모형

  • 분산이 크다 → 예측값 차이 크다

  • 편향 커지면 분산작아지는 경향

    • 최소 제곱법은 회귀계수 추정

    expectation maximization

  • 혼합분포

    소프트 맥스

  • 목표변수가 범주형

    결측값 처리

  • 결측값이 많지 않으면 단순 대치

esd

  • 이상값 판단기준으로 평균으로 부터 3표준편차 만큼 떨어진 지점 기준

    군집분석

  • 계측정 군집분석은 사전에 군집 개수를 미리 결정하지 않아도 된다

    빅데이터 출현배경

  • 게놈 프로젝트

  • 누적된 다양한 고객정보

  • 인터넷보급 기술발전

    -정형화 x

    데이터 오용

  • 발권거부

    분산형 조직

  • 전사내 별도 분석조직

  • 현업 부서로 배치

  • 우선 순위 선정가능

    프로젝트 관리 영역 10가지

  • 통합

  • 이해관계자

  • 범위

  • 자원

  • 시간

  • 원가

  • ㄹ;ㅣ스크

  • 품질

  • 조달

  • 의사소통

  • 관리 x

    분석과제 관리 프로세스

  • 수행된 분석과제 결과는 과제 결과로 풀로서 관리

  • 선정과제만 후보로 관리

    분석 마스터 플랜

  • 전략적 중요도

  • 비즈니슷성과

  • 실행요이성

    기술적용수준은 적용 범위/ 방식 고려

    연속형 확률 변수

  • ∫x f(x) dx

    연관분석의 지표

  • 지지도, 신뢰도, 향상도

    분산

  • x^2 * p - (1/n)^2

    오즈

  • 성공확률을 실패확률 나눈값

    분해시계열 요소

  • 계절

  • 순환

  • 불규칙

  • 추세

    마할라노비스

  • 변수의 표준화와 변수의 상관성 고려

0개의 댓글