이번 글은

제1장. 분석모형 설계

분석모형 선정

  • 통계 분석 : 객관적인 근거에 기반을 두고 데이터 수집, 처리, 분류, 분석하여 의사결정 지원, 모집단에서 표본을 추출하고 추론 및 가설 검정 실시
  • 데이터 마이닝 : 수학이나 통계적 기술을 활용하여 데이터 분석. 새로운 상관관계나 추세를 파악하고 예측 및 분류 등에 활용
  • 데이터 유형, 변수, 속성을 파악하고 연구 목적에 맞게 데이터 분석모형 선정

빅데이터 분석 프로세스의 핵심 업무

  • 적합한 분석모형 선정, 분석모형 적용, 성능 및 적합성 평가, 안정성 평가

빅데이터 분석 방법(분석대상과 분석방법의 유무에 따른 분류)

  • 최적화(Optimization) : 목적함수, 제약조건 정의 후 문제해결
  • 솔루션(Solution) : 분석대상은 알면서 분석방법을 모르는 경우 적용
  • 통찰(Insights) : 분석대상이 명확하지 않은 경우 기존 분석 방식 활용
  • 발견(Discovery) : 새로운 분석대상 도출, 정확도가 중요함

데이터 분석모형 구축 절차

  • 요건정의 → 모델링 → 검증 및 테스트 → 적용 → 주기적 검토

데이터 분석모형 구축 시 고려사항

  • 데이터 처리, 시각화, 공간분석, 탐색적 자료분석, 통계 분석, 데이터 마이닝, WBS수립, 결측치 및 이상치 처리 방법

소프트웨어 분석 방법론

  • 폭포수 모델 : 체계적이고 순차적인 개발 접근 방법
  • 나선형 모델 : 반복을 통한 점증적 개발 방법
  • 프로토타입 모델 : 시스템 일부분을 구현한 후 다음 요구사항을 반영, 점진적 개발 방법

빅데이터 처리 시스템

  • 대용량 데이터를 분산 병렬 처리하고 관리하는 시스템
  • 빅데이터 수집, 관리, 유통, 분석 과정 수행
  • 주요 기능 : 데이터 검증, 실시간 배치 처리를 위한 프레임워크 제공, 데이터 품질관리 등
  • 구축 절차 : 빅데이터 처리 환경 분석 → 빅데이터 처리 시스템 세부 계획 수립 → 기존 시스템 연계 고려 → 빅데이터 처리 환경 구축

빅데이터 저장 시스템

  • 관계형 데이터베이스(Relational DBMS) : 주로 정형 데이터 유형의 데이터 저장
  • NoSQL : 기존 RDBMS와 비교하여 상대적으로 제한이 덜한 데이터 모델 적용
  • 하드웨어 : 마스터 노드(메모리 상에서 처리해야 할 작업이 많은 경우 고용량 메모리 요구)와 슬레이브 노드(파일 블록 저장, 작업 수행 노드)로 구분
  • 소프트웨어 : 데이터 수집, 변환, 적재, 데이터 관리 및 분석용 소프트웨어로 구분

데이터 분석 도구

  • 하둡(Hadoop) : 대용량의 데이터 분산 처리. 자바기반의 오픈소스 프레임워크. 아파치 재단 관리
  • R : 오픈소스 프로그램. 통계 계산 및 데이터 마이닝, 시각화 지원
  • MapReduce : 분산 병렬 컴퓨팅 환경에서 데이터 처리. 맵 함수와 리듀스 함수 기반 데이터 병렬 처리. 구글 개발
  • SPSS : 사회과학 자료 분석용으로 고안. 사용의 편리. 보편적으로 많이 사용
  • SAS : 통계 전문가들이 주로 사용. 보고서 작성 기능 제공. 그래픽 기능 제공

텍스트 마이닝을 위한 텍스트 수집 도구

  • Scraping : 크롤러와 달리 하나의 웹문서(웹사이트)에 대한 정보 수집
  • Crawling : SNS, 뉴스, 웹정보 등 인터넷에서 제공되는 웹문서 정보 수집
  • RSS : 웹기반 최신 정보 공유. XML 기반의 콘텐츠 배급 프로토콜 이용
  • Open API : 데이터, 정보, 각종 서비스 등을 어디서나 쉽게 이용할 수 있는 개방형 API로 데이터 수집

데이터 분할

  • 데이터 분석목적에 부합하는 데이터 분석모형과 모형 구축을 위한 데이터의 질이 중요하며, 분석모형의 성능을 개선하기 위하여 데이터를 훈련, 검증 및 평가검증 데이터세트로 분할함
  • 훈련 데이터세트 : 가장 큰 데이터세트로 빅데이터 통계 모듈 구축을 위해 사용. 데이터 분석모형 개발을 위한 학습(훈련) 데이터
  • 검증 데이터세트 : 모형을 비교하여 좋은 모형을 선택하기 위해 사용. 각 모형의 성과를 평가하기 위해 사용
  • 평가검증 데이터세트 : 새로운 데이터를 이용하여 선택된 모형의 성능을 평가하기 위한 용도로 사용
  • 과적합 : 제한된 훈련 데이터세트에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상

제2장. 분석기법 적용

회귀 분석(Regression Analysis)

  • 변수들 사이에 함수적인 관계를 알아보기 위해서 수행하는 통계적 기법으로 독립변수와 종속변수 사이의 함수식 유도. 독립변수들의 값을 이용해서 종속변수의 값을 예측
  • 단순회귀 분석 : 독립변수와 종속변수가 각각 1개인 경우
  • 다중회귀 분석 : 독립변수의 수가 2개 이상. 종속변수가 1개인 경우
  • 결정계수(Coefficient of Determination) : 총 변동 중에서 회귀식에 의하여 설명되는 변동의 비율로 회귀모형의 설명력을 나타냄. 단순회귀 분석모형의 경우 결정계수의 값이 1에 가까울수록 점들이 직선 주위에 밀집되어 나타나게 되어 회귀에 의한 설명이 잘 됨을 뜻함
  • 단순회귀 분석모형의 가정 : 선형성, 등분산성, 독립성, 정규성
  • 독립변수 선택 방법 : 전진선택, 후진제거, 단계별선택, 일반적 회귀식 이용
  • 절차 : 독립 및 종속변수 결정 → 선형 관계 확인 → 회귀계수 추정(최소제곱법) → 유의성 검정 → 독립변수별 회귀계수의 유의성 검정(분산 분석표 활용)
  • 회귀 분석의 종류 : 단순, 다중, 다항, 비선형 회귀 분석 등

다중공선성(多重共線性, Multicollinearity)

  • 회귀 분석을 실시할 경우 독립변수들 사이에 강한 상관관계가 나타나는 문제. 분산팽창지수를 구하여 독립변수들 사이의 상관관계 판정(분산팽창지수가 10 이상이면 독립변수 간에 상관관계 존재)

분산 분석(ANOVA; Analysis of Variance)

  • 세 개 이상의 집단 간 평균에 대한 검정을 위해 사용하는 기법으로 분산을 기반으로 하여 통계적인 평균을 비교. 집단 내 분산과 집단 간 분산비(F검정통계량)를 구하여 통계적인 차이가 있는지를 검정. 종속변수의 수가 1개인 경우 단일변량 분산 분석(독립변수가 1개인 경우 일원 분산 분석 2개인 경우 이원 분산 분석), 2개 이상인 경우 다변량 분산 분석 이용

로지스틱 회귀 분석(Logistic Regression)

  • 독립변수와 종속변수 사이의 관계를 함수로 나타낼 때, 종속변수가 범주형으로 주어진 자료의 경우 새로운 자료가 어느 범주에 속하게 될지를 예측
  • 로지스틱 회귀모형식 : 이항형 로지스틱 회귀모형을 위해 주로 시그모이드(Sigmoid) 함수 이용. 독립변수는 연속형 형태의 자료 종속변수는 (성공, 실패), (가능, 불가능), (합격, 불합격) 등의 범주(이항)형
  • 의료, 통신, 데이터 마이닝 등의 분야에서 분류와 예측에 활용

의사결정나무(Decision Tree)

  • 의사결정 구조를 나무 모형으로 나타내는 것으로 과거에 수집된 자료를 분석해서 이들 사이에 존재하는 패턴을 나타내며, 분류 모형에 주로 사용. 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 데 활용
  • 트리 구조 형성 알고리즘 : CHAID(Chi-squared Automatic Interaction Detection, 이산형 목표변수의 경우 카이제곱, 연속형인 경우 F검정통계량을 이용하여 분리 구조 생성), CART(Classification and Regression Tree, Gini Index 이용), C4.5(Entropy Index 이용) 등 기업 부도 예측, 주가 상한가 종목 예측, 환율 예측, 경제 전망 등에 활용

인공신경망(Artificial Neural Network)

  • 사람의 뇌 구조(Neuron)에 모티브를 얻어 인공 뉴런(노드)의 네트워크 구성. 다층 신경망 생성
  • 초기 인공지능은 전문가시스템, 사례기반추론(과거 사례를 기반으로 사례의 결과 예측), 퍼지 이론 등을 이용한 문제해결에 초점
  • 최근 컴퓨팅 속도가 빨라지고 빅데이터 분석 기술이 발전하면서 인공신경망을 이용한 문제해결(딥러닝 알고리즘 등)이 가능하게 됨
  • 복잡한 분류, 비선형 및 수치예측 등에 활용

서포트벡터머신(Support Vector Machine)

  • 서로 다른 분류에 속한 데이터들 사이의 간격(Margin)이 최대화되는 평면을 찾아 이를 기준으로 분류 결과를 찾아냄
  • 텍스트 분류, 패턴인식, 다양한 분류 및 회귀에 주로 사용
  • 선형분류뿐만 아니라 Kernel Trick(커널 트릭)이라 불리는 입력자료의 다차원 공간상으로의 Mapping 기법을 사용하여 비선형 분류에도 효율적으로 사용

연관성 분석(Association Analysis)

  • 군집 분석을 통해 나누어진 클러스터를 대상으로 각 그룹에 대한 특성을 분석
  • 연관관계 규칙의 측정지표 : 지지도(Support, 전체 거래 중에서 상품 A, B를 동시에 구매하는 거래 비율), 신뢰도(Confidence, 품목 A가 포함된 거래 중에서 품목 B를 포함하는 거래의 비율), 향상도(Lift, 품목 B를 구매한 고객 대비 품목 A를 구매한 후, 품목 B를 구매한 고객에 대한 비율)

군집 분석(Clustering Analysis)

  • 개체들에 대한 사전 지식없이 유사도에 근거하여 군집을 구분함. 새로운 개체를 독립변수의 값을 가지고 예측(분류)
  • 분류 방법 : 계층적 군집(가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집 형성), K-평균 군집(군집안의 중심과 해당 군집의 각 객체 간 거리의 합이 최소화, 군집 간 분리는 각 군집의 중심 간의 거리 합이 최대화), 혼합분포 군집(군집을 몇 개의 보수로 표현하고 확률 분포를 도입하여 군집 수행), 자기조직화 지도(Self-Organizing Map, 다차원 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하고 지도의 형태로 형상화) 등
  • Dendrogram : 개체들이 결합되는 순서를 나타내는 Tree 형태의 구조
  • Ward : 두 군집 간의 유사성을 두 군집이 합쳐졌을 때의 오차제곱합의 증가분에 기반해서 측정
  • 군집 간 거리측정 방법(수치값을 가지는 데이터) : 민코프스키, 유클리디안, 맨해튼, 체비셰프 거리측정 등

범주형 자료분석(Categorical Data Analysis)

  • 관측된 데이터가 몇 개의 범주로 분류되고 각 범주의 도수로 자료가 주어진 경우 적합도 검정, 동질성 검정, 독립성 검정 등의 방법(카이제곱 검정 통계량 이용)을 이용하여 범주형 자료를 분석함

다변량 분석(Multivariate Analysis)

  • 일변량 통계 분석 : 단일 독립변수와 단일 종속변수 사이의 관계 파악
  • 다변량 통계 분석 : 변수의 변동 요인을 알아보기 위해 많은 수의 요인 중 한 요인을 선택하여 선택된 요인과 변수와의 관계 분석 시 요인들 간의 상호작용이 존재하고 변수 또는 요인들이 서로 영향을 줌. 이 경우 다변량 통계 분석 방법 적용
  • 변수의 차원축소 방법 : 다변량 회귀 분석, 분산 분석, 주성분 분석, 요인 분석, 정준상관 분석 등
  • 케이스의 차원축소 방법 : 군집 분석, 판별 분석, 다차원 척도법 등
  • 요인 분석 : 많은 변수가 상호 연관성을 가지고 소수의 요인으로 분석되는 경우 해당되는 요인을 찾아서 변수를 줄임
  • 판별 분석 : 결과가 다르게 나타난 개체들의 집단 간의 유사성과 차이점을 기준으로 아직 결과를 알 수 없는 개체에 대한 결과 예측. 집단을 구별할 수 있는 설명변수(독립변수)를 통해 집단구분 함수식(판별함수)을 도출하고 이를 이용하여 소속 집단을 예측함
  • 다차원 척도법 : 개체들의 특성을 측정하고 특성을 이용해 개체들 사이의 유사성과 비유사성을 측정하며 다차원 공간상에 점으로 표현함. 다차원 공간상에 유사성이 큰 대상들은 가깝게 유사성이 작은 대상들은 상대적으로 멀게 위치시킴

시계열 분석(Time Series Analysis)

  • 시간의 경과에 따라 변동하는 변수를 관측하고 예측함. 오랫 동안의 변동을 통해 일정한 추세를 가지며 이를 이용해 미래 현상을 예측함. 과거를 통해 미래의 지속성 확인
  • 시계열 자료의 패턴 : 추세, 계절성, 주기성, 자기상관, 백색잡음 등
  • 예측기법 : 평균, 단순기법, 계절성 단순 기법, 표류기법, 잔차진단, 회귀모형, 최소제곱추정법, 회귀모형 평가 등
  • 자기회귀모형(AR; Autoregressive Model) : 현 시점의 자료를 p시점 전의 과거 자료로 설명
  • 이동평균모형(MA; Moving Average Model) : 현 시점의 자료를 유한 개의 백색잡음의 선형 결합으로 표현
  • 자기회귀 누적이동평균모형 : ARIMA(Autoregressive Integrated Moving Average Model) 모형. 비정상 시계열 모형. 차분 및 변환을 통해 AR, MA, ARMA 모형 정상화

베이지안 기법(Bayesian Method)

  • 관측된 데이터 정보에 주관적 확률에 근거한 사전분포를 이용하여 사후분포를 계산하고 사후분포를 통해 모수를 추정함
  • 베이지안 이론의 핵심은 베이즈 정리이며 어떤 미지변수의 불확실성은 확률 분포로 표현되고 이는 과거의 경험에 기초한 주관적 사전지식과 현재의 데이터에 기반한 객관적 우도(Likelihood)의 곱으로 주어짐
  • 베이지안 네트워크 : Belief Network. 방향성 비순환 그래프(Directed Acyclic Graph)
  • 나이브 베이지안 : 측정 자료가 여러 가지 속성을 가지고 있을 때 해당 자료를 어느 속성에 넣어야 할지 결정. 주가 상승(하락) 예상 종목 분류, 문서 내용 분류, 스팸 메일 분류 등에 활용
  • 은닉 마르코프 모델(Hidden Markov Model) : 시스템이 은닉된 상태와 관찰 가능한 결과의 두 요소로 이루어진 확률 모형. 음성인식 및 자연어 처리 등에 활용

딥러닝(Deep Learning)

  • 머신러닝과 신경망의 한 분야로서 여러 개의 은닉층을 가진 심층 신경망(Deep Neural Network)을 기반으로 하는 학습 방법
  • 심층 신경망의 종류 : CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), GAN(Generatvie Adversarial Network) 등
  • 딥러닝 개발 환경 : Tensorflow, Caffe, Theano, Chainer, MXNet, Keras 등
  • 영상인식, 음성인식 등의 패턴인식 분야에 주로 활용

비정형 데이터 분석(Unstructured Data Analysis)

  • 유형이 불규칙하고 의미를 파악하기 모호해서 기존 컴퓨터 처리 방식의 적용이 어려운 경우 텍스트 마이닝, 오피니언 마이닝 및 웹 마이닝 등의 기법 활용
  • 텍스트 마이닝 : 텍스트 분석 방법(비정형 텍스트로부터 유용한 정보 추출). 텍스트에 대한 형태소 분석, 불용어 처리를 통한 키워드 추출, 단어 및 문서관련 표현 정보 추출 등
  • 오피니언 마이닝 : 상품평, 영화 감상평, 정치인에 대한 호감 등 사람들의 주관적, 감정적 의견 분석. 특정 주제에 보인 의견이 긍정, 부정, 중립인지 찾아냄. 선호도 판별 등
  • 웹 마이닝 : 노드(웹사이트에서 한 개의 페이지처럼 보이는 정보 단위)와 연결 구조(링크, 서로 연결되어 있는 연결점) 분석. 하이퍼링크로부터 패턴을 찾거나 웹페이지 구조 분석

앙상블 분석(Ensemble Analysis)

  • 여러 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높임. 새로운 자료에 대한 분류 예측값들의 가중 투표(Weighted Vote)를 이용한 분류 방법. 하나의 모델을 사용하는 것보다 여러 개의 모델을 조화롭게 학습시켜 그 모델들의 예측 결과들을 이용하여 더 정확한 예측값을 구할 수 있음
  • 앙상블 학습법 : Bagging(Bootstrap Aggregation, 샘플을 여러 번 뽑아 각 모델을 학습하고 결과물을 집계함. 병렬 학습), Boosting(모델 예측, 예측 결과에 따라 데이터 가중치 부여, 새로운 분류 규칙 생성(반복 수행))
  • 랜덤 포레스트(Random Forest) : Bagging에 랜덤 과정을 추가. 배깅의 개념과 속성(또는 변수)의 임의 선택(Random Selection)을 결합. 훈련과정에서 구성한 다수의 결정트리로부터 분류 또는 회귀 분석(평균값 예측 등) 결과 출력

비모수 통계

  • 정규성 검정에서 정규 분포를 따르지 않거나 표본의 수가 10개 미만인 소규모인 경우 자료를 크기 순으로 배열하여 순위를 매긴 후 다음 순위의 합을 통해 차이를 서로 비교함
  • 비모수 검정 : 모집단의 분포가 알려져 있지 않은 경우 관찰값이 실제 자료가 아닌 순위 등의 형태인 경우 수행
  • 비모수 검정의 종류 : 부호검정, 윌콕슨 순위합 검정, 크루스칼왈리스 순위검정 등
  • 런검정 : 표본의 독립성 검정

※ 동일한 관측값이 연속적으로 이어진 것

진단분석(Diagnostics Analysis)

  • 데이터 속에서 일관적인 경향을 나타내는 패턴을 잘 파악해 문제를 발생시키는 원인이나 상황을 찾아내는 분석 기법
  • 언제, 어디서, 어떤 일이 얼마나 발생했는지를 파악해 체계적으로 정리함으로써 문제 해결과 빅데이터에 기반한 인공지능의 발전으로 유용성을 증대시킬 수 있음
  • 기업의 진단분석을 통하여 기업 규모, R&D 규모, 사업화 역량, 산업 분류 등을 기반으로 경영 역량, 혁신 역량, 기획 및 수행 역량 등을 평가
profile
가치를 만드는 데이터 분석가

0개의 댓글