메타 데이터
인덱스
테이블
속성
데이터 크기
빅데이터의 본질적 변화 사전처리 → 사후처리 표본조사 → 전수조사질(quality) → 양(quantity)인과관계 → 상관관계
준비형(준비도 낮음, 성숙도 낮음)
: 기업에 필요한 데이터, 인력, 조직, 분석 업무 등이 적용되어 있지 않아 사전 준비가 필요한 기업
도입형( 준비도 높음, 성숙도 낮음)
:준비도는 낮으나 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업
확산형(준비도 높음. 성숙도 높음)
: 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 부분적으로도 도입되어 지속적 확산이 필요한기업
분석성숙도
분석마스터 플랜 수립 시 적용 범위/ 방식의 고려요소
우선순위 고려요소
분석활용 시나리오
분류 모형 평가사용 도구
회귀모형 평가도구
군집모형 평가도구
증거가 확실할 때 가설검정으로 증명하고자 하는것 : 대립가설
군집 분석
스피어만 상관계수
SOM(self-Oranizing MAPs)
주성분 분석(PCA)
연관분석 단점
연관분석 장점
데이터 분할
지지도
향상도
a가 주어지지 않았을 떄 b의 확률 대비 a가 주어졌을 떄 b의 확률 증가 비율
품목 b를 구매한 고객 대비 품목 a를 구매한 후 품목 b를 구매하는 고객에 대한 확률
향상도 =P(B|A)/P(B) = P(A∩B) / (P(A)P(B))
향상도 = (0.3) / (0.7 0.45)
앙상블
-voting: 서로 다른 여러 개의 모형을 생성하고 결과를 집계하여 많은 표를 받은 것을 답으로 하는 방식
부스팅: 순차적인 학습, 붓스트랩 표본을 구성하는 재표 본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
스태킹: 두 단계의 학습을 사용하는 방식으로 서로 다른 여러 모형의 예측 결과를 다시 학습데이터로 하는 모형을 사용함
drop- out : 딥러닝에서 과대적합 방지를 위해 노드의 일부를 랜덤하게 학습하지 못하게 하는 기법
mini- batch : 단위 별로 쪼개서 학습하는 것으로 데이터를 일정하는 크기로 나누어 모형을 구성함
bagging: 무작위 노드 선정이 아닌 bootstrap 방식으로 노드를 선정하는 방법을 사용
adaboost: 강한 분류기를 약한 분류기로 학습시키는 앙상블 방법으로, 각 모델은 이전 모델의 에러를 보완하도록 가중치를 조절하면서 순차적으로 학습된다. 이때 각 모델은 이전 모델이 잘못 분류한 샘플에 집중하여 학습
기업 내부 데이터 베이스 관련
CRM
EAI
ERP
빅데이터 활용 기술과 사례
= 연관 분석 : 맥주를 구매하는 사람이 기저귀도 구매
회귀 분석: 품목의 편ㅇ점이 품목이 구매될 가능성 영향
유전 알고리즘 : 방송 시간 편성, 택배 차량 배치
빅데이터 활용 필요 3요소
데이터, 기술 ,인력
인공신경망 분석기법
CNN
RNN
ANN
Q빅데이터 시대 위기 요인
SNS 여행 글로인해 강도침입
휴식 중 범죄 예측 프로그램에 의한 체포
갑자기 알지 못하는 사이트에 가입되었다는 안내문자수신
전략도출 가치기반 분석 중요 이유
해당 부서 혹은 해당 부서를 넘어선 전사적인 새로운 기회 포착
급변하는 환경에서 빠르게 고객의 니즈를 파악하는 등 전술적 활용
경쟁사보다 더욱 경쟁력을 키울 수 있느 새로운 방안 발견
빅데이터 본질적 변화
기계학습
빅데이터 가치선정이 어려운이유
데이터 분석 기초 가치 창출
비즈니스 분석 적용 효과적인 분석 적용 대상 검토
데이터 사이언티스트가 효과적인 분석 모델 개발 위해 고려 사항
오류설명
기업 내부 데이터 활용
-ITS 관련 X
빅데이터가 만들어 내는 변화
아래 빅데이터로 달성할 수 있는 경영혁신의 시작 단계에서 궁극단계
1. 생산성향상
2. 발견에 의한 문제해결
3. 의사결정 향상
4. 새로운 고객가치와 비즈니스 창출
소비자 프라이버시 3대 권고 사항
데이터
데이터웨어 하우스 특성
빅데이터 출현 배경
구글 번역 서비스 활용 빅데이터
빅데이터
데이터베이스
구글의 NGRAM VIEWER
빅데이터 위기요인 통제
전략적 통찰력을 얻기 위해 분석을 사용하는 방법
비즈니스 핵심가치와 관려된 분석 프레임워크와 평가지표를 개발하여 사용
분석이 경쟁의 본질을 제대로 바라볼수 있도록 큰그림
정보
평균 구매액
베스트 셀러
우량고객
분석테크닉
-개인 신용평가 → 회귀분석
뛰어난 데이터 사이언티스트
데이터 웨어하우스
-재무,생산.운영과 같이 부서별 또는 업무 기능별 특정 주제 중심으로 구축되는 것은 데이터 마트
내부프로세스 분석활용기법
최적화: 일부 변수값이 반드시 정수, 한정된 자원으로 특정 목적을 달성하는 솔루션을 내놓은 효과적인 할당을 의미
몬테카를로 시뮬레이션: 특정결과 혹은 위험이 발생할 확률을 평가하고 계산 기법으로 수학적 모델을 통해 가설 사건을 여러 차례 실험하고 미리 정해진 확률 분포와 비교
신경망 분석: 투입요소들을 구한 할때까지 반복해서 학습
추정치로 수익예측 : 베이스 추론
ERP : 기업 전체를 경영자원의 효과적 이용이라는 관전에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
분석 수행 앞선 고려사항
분석 대상 명확, 분석 방법 명확x
의사결정 방해요소
분석 방법론 구성요소
CRISP - DM 방법론 모델링 단계 수행 태스크
모델 테스크 계획 설계
모델링 기법 선택
모델 평가
적용성 X
분석기획 단계 3가지 과정 순서
비지니스 이해 및 범위 설정 - 프로젝트 수행계획 수립 - 데이터 분석 위험 식별
하향식 접근법
문제 탐색 단계에서 유스케이를 우선적으로 고려한다
프로젝트 관리에 대한 설명
프로젝트 결고로 얻는 산출물은 보고서와 시스템 두가지 유형이 있으며, 그에 따른 프로젝트 관리도 다르게 수행된다
분석 과제 수행에 있어 사전에 위험을 식별하고 대응방안을 수립해야한다.
분석과제는 적용되는 기법에 따라 범위가 변할 수 있어 관ㄹ가 중요
일정 계획을 수립할 떄 최기에 의도했던 결과가 나오기 쉽지 않아 TIME BOXING 기법을 ㅗ일정 관리를 진행할 필요가 있다
분석 과제 관리를 위해 추가적으로 고려 5가지 속성
데이터 양, 데이터 복잡도, 분석 속도, 분석 복잡도, 정확도 &정밀도
성숙도 통합 모델 (5단계)
능력 성숙도 통합 모델은 소프트웨어 및 시스템 공학의 역량 성숙도를 파악하기 위한 모델이다
1단계 수준에서는 개인의 역량이 프로젝트의 성공 여부를 결정한다
2단계와 3단계의 가장 큰 차이는 조직을 관리하기 위한 전사 차원의 표준 프로세스 존재 여부다.
분석 마스터플랜 수립에서 과제 우선 순위 결정 내용
적용 기술의 안전성 검증은 기술 용이성의 평가요소다
전략적 중요도는 전략적 필요성과 시급성의 두가지 요소로 선별한ㄷ.
분석 준비도 구성요소
분석 업무 파악 진단: 1. 예측 분석 업무, 2. 최적화 분석 업무 3. 분석 업무의 정기적 개선
분석 성숙도 활용단계
비즈니스 부문에서 미래 결과를 예측
데이터 지속 적용 및 분석 거버넌스 체계 구성요소
분석관련 시스템, 데이터, 분석 과제 기획
데이터표준화
데이터 거버넌스 체계에서 데이터 표준용어 설정, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 등의 업무 구성
과제 관리 프로세스
과제 발굴에서 가장 중요한 단계는 인력을 구성하는 팀 구성의 단계
분석 과제가 종료되어도 지속적인 모니터링 작업 필요
분석 과제 관리 프로세스를 진행하는 이유는 지속적인 분석 니즈를 파악하고 분석을 수행함으로써 기업 내 분석 문화가 내재화되기 위함
분석교육
기업 내 모든 구성원에게 분석 기반의 업무를 정착시키는 것이 목적
분석기획자는 분석의 효율적인 설계를 위한 큐레이션 교육이 요구
분석 실무자에게는 직접적인 데이터 분석 및 도구의 교육이 요구된다
경쟁자 확대 관점의 분석기회 발굴 영역
경쟁자
대체 상품
신규 진입자
빅데이터 분석 방법론의 분석기획 단계 태스크
비즈니스 이해 및 범위 설정
프로젝트 정의 및 계획 수립
프로젝트 위험 계획 수립
분석 준비도 분석업무 파악 항목
예측 분석업무
최적화 분석업무
시뮬레이션 분석 업무
분석 준비도 성숙도 진단: 업무 기법부족, 준비도 높은 기업 형태
도입형
데이터 거버너스: 저장소 관리에서 수행하기 적절한 업무
사전영향 평가
지속적인 반복과정을 통해 완성도를 높여가는 개발 방법 복잡도 상승 프로젝트 진행어렵
나선형 모델
CRISP-DM 에서 노이즈 결측치를 식별하고 제거한 뒤 데이터셋 선택 업무 단계
데이터 준비
분석 마스터 플랜 수립 우선순위 결정
하향식 기존 시스템으로 분석가능한경우 기업이 검토해야하는 항목
기능형 구조
데이터 거버넌스 구성 요소
분석 방법론 모델
분석 과제 발굴 하향식 접근법
하향식 타당성
분석 역랑 및 분석 기법을 고려한 해결 농반 모색은 하항식 접근법의 해결 방안 탐색 단계에서 수행히는 과제다.
CRISP-DM 분석 방법론의 업무 이해 및 데이터 이해 단계
데이터 거버넌스 목적
기업 의사결정 분석업무 기업 문화 정착 → 분석 거버넌스 목적
KDD 분석 방법론
프레이밍 효과
분석에 대한 결과의 해석은 언제나 인간의 개입이 필요하지만 결과를 해석하는 두사람이 완전히 다른 결론을 내는 문제를 의미
빅데이터 분석 방법론 피드백
데이터 준비단계-데이터 분석 단계
분석과제 발굴
분석과제는 이해관계자들이 이해할 수 있도록 프로젝트의 수행 목적에 알맞은 과제 정의서 형태로 도출된다
대규모 데이터가 빠르게 생성되고 변화하는현대 사회에는 문제 정의가 어렵기 때문에 다양한데이터의 조합 속에서 인사이트를 찾아내는 것을 상향식 접근법이라고 한다
IDEO사의 디자인 씽킹 프로세스는 비즈니스와 기술, 그리고 인간 중심 사고가 만나 혁신적 해결책을 도출하는 방법을 의미한다.
문제가 주어졌을 떄? 각 과정을 체계적으로 해결 → 디자인 띵킹
빅데이터 분석 방법론의 분석기획 단계에서 수행해야하는 업무
비즈니이해 및 범위 설정
프로젝트 정의 및 계획 수립
프로젝트 위험 계획 수립
분석데이터 정의 → 데이터 준비 단계
R
오른쪽 하단 기타창
도움말
현재 디렉터리 파일
시각화 자료
R 데이터 구조
리스트에 저장되는 모든 데이터는 서로 다른 형식의 데이터를 저장
데이터 프레임은 여러 개의 벡터로 구성되어 각열이 다른타입을 가질 수 있다
데잍 프레임은 가장 많이 사용되는 구조 중 하나로 RDBMS에서 테이블과 유사한 형태
na값 포함 계산
→ na
plot 함수 보유 매개 변수 사용
type = 'n' - none의 약자로 plot 위에 어떠한 결과도 출력하지 않는다
col = 'red' - plot 위에 출력되는 점 또는 선을 빨간색으로 지정
main = 'mydata' - plot 의 메인 이름을 mydata로 지정
xlim 은 x 축제한 매개변수 xlim = c(1,10)으로 표현
평균 3, 표준편차2 정규분포 10개 데이터 추출
rnorm(10,3,2) ( 데이터 개수, 평균, 표준편차)
EDA
데이터 분석을 수행하기 전 데이터의 이해는 무엇보다 중요하다, 그에 따라 데이터의 기초 통계량 값을 확인하고 다양한 관점에서 데이터를 바라보며 데이터를 이해하기 위한 목적으로 수행하는 작업을 말한다
단순대치법 결측값 처리
college <- copy_college[complete.cases(copy_college).]
비례 층화 추출법
모집단의 구성 비율을 반영한 표본집단을 생성하기 위해 모집단을 여러개의 이질적인 집단으로 나눈 뒤 모집단의 비율과 같은 비율로 각 집단으로 표본을 추출하는 방법
이산형 확률 분포
포아송 분포
기하분포
베르누이 분포
기하분포
발생할 수 있는 사건이 0과 1로 두개인 확률 분포를 n번 시행할 때 처음으로 성공인 시행이 나올떄까지 시행할 확률
유의확룰
-기각 여부 판단
명목척도에서 상관계수를 구할 수 없다
다차원척도법
데이터를 저차원 공간에 배열하는 시각화 기법
stress 값이 0인경우 적합이 잘된것
데이터의 변수는 연속형 또는 서열척도
선형회귀 식을 산출 x
주성분 분석
변수 요약기법으로 기존 데이터의 선형 결합으로 주성분을 생성한다
누적기여율 70~90되도록 주성분 개수 선택
n갸의 변수를 n개의 주성분으로 요약할 때 누적기여율은 100
손실되는 정보가 최소가 되도록 분산이 가장 큰축을 찾는다
회귀분석에서 다중공선성의 존재로 변수간 해석어려움 → 주성분분ㄱ석을 활용하여 다중공선성의 문제 해결
자기회귀모형
n개의 이전 시점 자료들로 설명가능하다는전제로 적절한 n값읍ㄹ 찾는 pacf그래프 활용
분해시계열 요인
추세요인
순환요인
불규칙요인
계절요인
오즈값은 5배가 아닌 5제곱으로
종속변수가 범주형일 경우 카이제곱, 지니지수 엔트로피지수
연속형일 경우 f통계량, 분산의 감소량 사용
정자규칙
너무 많은 분리기준을 보유한 의사결정나무는 일반화의 어려움이 있을 수 있는 과적합 문제 발생 .. 이를 해결하기 위해 특정조건 도달 나무 성장 ㅁ멈춤
앙상블 분석
배깅은 원본 데이터의 붓스트랩을 활용하여 여러개의 모ㅕㅇ을 만들고 보팅에 의해 최종결과를 찾아낸다
붓스트랩이란 기존데이터와 같은 크기만큼의 표본을 복원추출하여 만들어낸 새로운 표본집단
앙상블 분석의 주 목적은 여러개의 분류기를 제작하여 하나의 분류기에서 오는 낮은 신뢰성을 높이는 것
랜덤포레스트는 이상값에 민감하지 않다
인공신경망
은닉층과 노드수가 많으면 과적합 , 적으면 과소 적합 발생가능성
발생한 오차를 줄이기 위해 역전파 알고리즘을 사용하여 가중치 수정
역전파에 의한 가중치 수정 작업 중 가중치의 절대값이 커져 과소적합이 발생하는 것을 포화문제
다수의 은닉층을 보여한경우 시그모이드 사용 기울기 소실 문제
범주형 데이터 거리 측정
자카드 거리, 코사인 거리
계측적 군집분석에 대한 설명
범주형 데이터에서도 거리측정이 가능하므로 분석기법을 적용할 수 있다
r에서 최장연결법으로 수행하기 위해서는 complete를 사용한다
최장연결법 새롭게 생성된 군집 내의 데이터들과 군집 밖의 데이터의 거리 중 가장 먼 거리를 군집과 데이터의 거리로 사용한다
와드연결법은 군집 내 편차 제곱합이 최소가 되도록 연결
거리 측정 기본갑 ㅅ 유클리디언 ㄱ리
탐욕적 알고리즘
언제나 안정된 군집을 도출할 수 있으나 최적으로 군집화 되었는지 알수 없다
정보보안 거버넌스(it 거버넌스에 포함)
정보보안 거버넌스는 기업의 정보보안 전략을 정보보안 자원에 전략적으로 연계하는것을 목적
정보보안 거버넌스는 정보를 보안하는 리더쉽, 조직구조, 프로세스로 구성되어 있다.
정보보안 거버넌스 3요소 데이터 무결성, 서비스 연속성, 정보자산 보호
분석 체계 구현
분석을 위한 필요 데이터를 수집후 분석 모델을 설계
준비된 데이터를 모델에 적용하고 평가
반족정련하여 분석 모델 최적화
ㅎ확보 - 설계 - 적용- 평가 - 최적화
프로세스 혁신의 방향
비즈니스 모델의 시나리오 기반으 ㅣ하향식 접근
time to market 신속성 관점의 업무 효율화가 아닌 quality to market 최적화 관점 업무 처리
업무 프로세스의 실행 시점에 필요한 action을 강제화 할 수 있도록 분석의 프로세스 내재화 관점의 접근
업무프로세스 내재화
정보계 분리, 분석기법 교육받아 batch성 선택으로 참조했던 분석을 프로세스의 실행 시점에 내재화하여 분석 및 의사결정이 강제적으로 이어지도록한다
집계성데이터, 주기적을 수집되는 과거 데이터 중심 분석보다는 실시간 발생 데이터 중심의 분석 수행
이벤트 발생으로터 실행까지의 프로세스 상의 의사결정 지연최소화 및 변화하는 신규 비즈니스 요건 대응의 민첩성을 확보
분석은 구조적비구조적 반구조적 포함
비즈니스이벤트 의사결정 최적화 장애요인
분석 선순환 구조맵
집중형 분석 조직
신속한 action ◇ 분산형
빅데이터 품질관리
이미 생성된 데이터 정제가 어렵다
개별 데이터에 대한 타당성 검증은 경우에 따라 불필요하다
혹시 발생할지 모르는 데이터 사용자의 오류는 무시할 수 있다
오너쉽은 거버넌스에서 관리 통제
빅데이터 보안
분석기회 찾는 방법 3가지
모든 데이터 분석은 비효율적
경영진의사결정 사항
분석성숙도 확산 단계
전사차원에서 분석을 관리하고 공유
분석 전담 조직을 운영하고, 데이터 사이언티스트를확보
전사 성과의 실시간 분석이 가능하고, 분산 규칙 및 이벤트를 관리
분석을 위한 협업 환경 구현 및 프로세스내재화 → 최적화단계
분석 업무 프로세스 내재화 고려요소
데이터 구현을 휘한 로드맵 수립시 고려사항 (분석적용)
기술 적용 수준
분석 데이터 적용수준
업무 내재화 적용 수준
고객 니즈 4가지
기능적가치
재무적 가치
감성가치
Activity System Map
빅데이터 분석을 강조하는 이유
업무 프로세스 내재화
분석 전담조직
business intelligence 기대사항
분석과제의 우선 순위 결정
데이터 분석 도입의 성공요소
상향식 접근방식에서 특정 업무 영역의 주제 지향적 분석기회 발굴 절차
분석기회 구조화
문자형 벡터
LGBM
스피어만 상관ㄱ{수
피어슨
부호검정
F- 검정
표본 분산에 대한 차이 검정
회귀 모형의 통계적 유의성 확인
지니지수
1- (30/50)^2 - (20/50) ^2 = 1200/2500 = 0.48
주성분 분석
bic 그래프 값이 최대가 되게하는vei 그래프의 x좌표값이 최적의 군집수
box plot
CART
고객파산여부 예측
설문조사 ) 만족 불만족
앙상블 분석
기울기 소실
FP-Growth
향상도
a,b 동시 거래수 전체거래수 /a포함거래수 b포함 거래수
공분산
두 변수 사이의 선형관계 측정
데이터를 표준화하지 않아 변수 사이 관계의 강도를 확인할 수 없다
공분산을 통해 변수사이 관계의 방향 확인
범위는 음의 무한~ 양의 무한
가설검정
귀무가설은 모집단에 대한 특징을 나타내는 가설로 일반적으로 ~와 같다로 정의
대응표본 t검정의 경우 비교하고자하는 두 집단의 크기는 반드시 같다
표본조사를 통해 가설 검정을 수행하기 때문에 모집단을 정의할 수 없는 경우에도 활용 가능하다
제 1종,2종 모두가 최소가 될 수 없기에 제 1종 오류가 허용하는 최소한의 확률을 설정하는데 이것이 유의수준
som 선택된 프로토타입 벡터
이 표본 t검정
행렬
data = 1234 data + 5
= 6789
가설검정
연관분석 척도
지지도가 높으면 해당 품목의 판매는 자주 발생
향상도가 크면 같이 진열될 때 더 잘팔린다
지지도, 신뢰도, 향상도 모두 크면 연관규칙이 의미가 있다
신뢰도가 크면 두 품목을 같이 진열했을 때 기대 수익 크다 x
의사결정 나무
목표 변수가 연속형인 경우, 회귀 나무를 활용한다
정자규칙과 가지규칙을 통해 가지의 과접합을 방지한다
r에서 rpart패키지를활용하여 의사결정 나무를 수행할 수 있다.
cart 알고리즘 지니지수 / c4.5 엔트로피지수
붓스트랩
복원 추출에 의해 생성되는 표본집단으로 모집단과 동일 크기
분산분석
두개 이상의 집단에 대하여 평균을 비교하는 가설검정
결측값 출력
data[1:2]
가설 기각 평균값 정의 x
ESD
이상값의 판단 기준으로 평균으로부터 표준편차 3을 기준으로 한다
K-NN ( k-near````)
분류분석 혹은 회귀 분석에 사용되는 방법이지만 주변 k개의 데이터를 탐색하여 다수결 방식에 의하여 결측값을 대체하는 결측값 처리 방법으로도 활용
주성분분석
전체데이터 70%
각 주성분은 기본 변수들의 선형 결합
biplot을 활용 주성분 결과 시각화
n개 이하 변수
비모수적 방법
모집단의 분포에 대한 가정없이 통계적 추론
자료를 순서대로 나열하여 각 순위를 활용한 분석 기법을 순위검정
전체 자료에서 중앙값을 뺐을 때 그 값이 양수인지 음수인지 검정 부호검정
비모수적 방법은 평균과 분산 활용 x
sd 는 포본 표준편차
조건부확률
p(x|y) = p(x∩y) / p(y)
p(x∩y) = p(x) + p(y) - P(x∪y)
plot 함수
main을 활용하여 산점도에 이름을 지정
xlim을 활용하여 x축의 범위를 정할 수 있다
type = 'n' 아무것도 나오지 않는다 none
col을 사용하여 산점도의 색을 지정할 수 있다
왜도가 양수
오른쪽 긴쪼리
정규분포 뽀죡
최빈값은 중앙보다 작다
평균은 중앙보다 크다
x와 x2 → 다항회귀
추출법
층화추출은 모집단을 여러개의 집단으로 나누어서 표본을 추출하는 방법
집락 추출: 집락간 동질적이며, 집락내 이질적인 특성
계통 추출: 모집단의 자료들에 번호를 부여후 일정 간격으로 표본을 추출하는 방법
데이터 표본추출 방법은 통계적 추론을 위한 중요한 사전작업이므로 적절한 표본 추출방법
군ㄴ집분석
통계적 추론
표준화값
평균이 0, 표준펀차가 1인 정규분포에서 추출된 2
(2-0)/1 = 2
펑균이 2, 표준펀차가 4인 정규분포에서 추출된 o
(0-2)/4 = -0.5
(추출 - 평균) / 편차
자기상관, 부분자기상관
자기상관 : 시계열 자료에서 현재 시점데이터로부터 특정 시차만큼 떨어진 값들에 대한 상관계수를 함수로 나타낸것
자기상관은 시차가 0 일때 자기 자신과 상관계수를 의미하므로 자기상관함수의 값은 1이다
둘다 시계형 모형 선택하기 위해 사용
부분 자기 상관함수는 현재시점의 값과 시차 n만큼 떨어진 시점에서의 값의 상관계수를 계산할 때 두시점 사이에 존재하는 시계열 자료로 부터오는 영향을 제거한함수
연관분석
동질성검정
군집분석종류
다차원청도법은 통계 분석으로 시각화 기법
(multidimensional scailing)
R
표본조사
신뢰도 값커지면 신뢰구간 커지고 표본크기 커지면 신뢰구간 좁힌다
그룹별 데이터 개수구하기
result (- ddply( test , ‘group’ , summarise , counter = length( value ) )
주성분분석
혼합분포 군집
1. 초기모수값 설정
2. 기대값계산
3. 최대가능도 검사
4. 새로운 모수값 설정
5. 최대가능도에 도달하면 알고리즘 종료
R
ggplot : r 시각화 라이브러리
data.table : 데이터 프레임보다 효율적 데이터 저장, 인덱스 활용 빠른검색
party : 의사결정나무를 위한 ctree 지원
xml csv 파일
결측치 처리
평균대치법: 변수의 평균으로 모든 결측값 대치
조건부 평균 대치법은 좀더 높은 신뢰도 높은 값으로 대치
결측값이 많은 경우 단순대치법은 막대한 양의 데이터 손실을 초래
다중대치법은 대치, 분석, 결합 순
x1,x2,x3 독립 ,y종속 전진선택법
오즈값
앙상블
데이터 분할이 고르지 못할 경우 성능저하, 앙상블은 여러개의 모형결합으로 해결
여러 트리 구성 모형이기에 이상값에 민감 x
랜덤 포레스트는 독립변수의 차원을 랜덤하게 감소 , 독립 변수 선택
보팅: 여러 트리로 부터 얻은 결과값을 다수결 방식으로 최종결과선택
시가거리(맨하튼)
범주형
roc커브
상관계수
회귀 분석
lm(linear model)을 활용히여 회귀분석을 수행할 수 있으며, 변수의 입력 순서는 종속변수 ~ 독립변수다 glm은
로지스틱 회귀분석에 사용한다.
기하분포
3차원 이상 구조
지도학습 분류기법
EDA
종류 다른 데이터 베이스
기존 관계형 데이터 베이스
nosqldb
가트너 데이터사이언티스트 역량
반정형 데이터
html
{'name':'json}
사용자 작성 비정형 데이터
데이터 마트
동의에서 책임
it 기술 발전 누구나 접근가능 수집가능 악용 사례 빈번
인터넷 기술 및 검색을 분석하여 인터넷 종료 후 정확도 예측
방법론 생성 과정
암묵지- 형식화- 형식지- 체계화- 방법론- 내재화- 암목지
데이터 거번넌스 순서
데이터 표준화 - 관리체계 - 저장소관리 - 표준화활동
하향식 접근법
최적화에서 해결책
isp
정보기술 및 정보 시스템을 전략적으로 활용하기 위해 조직의 내외부환경 분석 문제점을 도출하는 등 중장기적 마스터 플랜을 수립하는 절차
유의확률
귀무가설기각할 때 그 결정이 잘못되었을 확률
시계열 분석
공분산은 시점 t에 의존하지 않고 시차 i에 의존
모든 시점 t에 대해 일정 평균
모든 t에 대해 일정분산
백색 잡음은 대표적 정산성 가정 만족
과적합
5개의 변수를 갖는 데이터 각 변수에 대한 2차항과 3차항을 만들어 총 15개의 독립 변수를 사용해 설명력을 높였다
분류모델 구축 과적합 x
향상도 : a →b 구매하지 않았을 때 품목 b를 구매할 확률 대비 a를 구매확률의 증가 비율을 의미한다
붓스트랩
생성할 때 크기는 똑같아야한다
정밀도
결측치 처리방법
평균대치법 : 조건부 평균, 비조건부평균 대치법
결측치가 많은 경우 단순 대치법은 손실이 많을 수 있다 권장 x
다중 대치법은 대치 분석 결합 순서로 구성
분류를 위한 k -nn 알고리즘을 사용해 결측값 대치
자기조직화 지도
가까운 뉴련은 더 가깝게, 먼 뉴련은 더 멀게 군집형성
k-평균 군집
최단 연결법 존재 x
잡음이나 이상값에 민감하여 평균 대신 중앙값 사용 하기도
seed 변경에 따라 데이터들을 다른 군집으로 이동할 수 있다
분석을 수행하기 앞서 사전에 주어진 목적이 없기 때문에 결과의 해석이 어렵다
데이터 마이닝 특성
군집기법(비지도): expectation maximization algorithim, k-means
연관분석(비지도): apriori algorithm
선형 지도: linear regression
f-1 score
2ab / (a+b)
데이터 사이언스 구성요소
수학 및 통계적 지식, it 및 프로그래밍 지식, 분석 대상인 도메인 지식 모두 포괄
위 요인들 외에 스토리텔링, 커뮤니케이션, 호기심 등이 추가적으로 요구된다
기존의 통계학과 다른점은 총체적 접근법을 활용한다는 것이다
효율적인 데이터베이스링을 위해 it 지식 요구 ----- 수학적 x
like 와 = 는 바꾸어 쓸수 없다
개인정보 비식별기술
데이터마스킹 : 형식을 유지한채 읽을 수 없는 다른 문자로 대체, 읽을 수 있는 값으로 대체 가명처리
데이터 값 삭제: 해당 변수를 삭제하여 존재하지 않는 것처럼
총계처리 : 기존 값을 해당변수의 전체 데이터 값의 합계나 평균으로 대체
데이터 범주화 : 데이터의 값을 범주화해서 최솟값과 최댓값을 제공
분석방법론 구성 산출물 예시 및 설명
WBS : 업무 분업 구조로 프로젝트를 작은 단위의 업무로 나누어 수행자 및 수행기간을 명시한 문서
ERD : entity relation diagram 으로 데이터 베이스를 생성하고 데이터베이스내 테이블끼리의 연결관게를 표현한 문서또는 그림
프로그램 목록: 프로젝트를 수행하면서 산출되는 작은 단위부터 큰 단위까지 모든 프로그램을 나열한 목록
데이터 명세서 : 데이터를 관리하기 위한 문서로 변수명, 속성, 목적 및 활용 방안 등을 포함할 수 있다.
하향식 접근법
랜덤포레스트
데이터 프레임
R데이터 구조 2차원구조 각열이 서로 다른 타입을 가질 수 있으며 정형데이터 분석에 가장 많이 활용
척도
첨도: 자료의 뽀족한 정도를 나타내는정도
왜도 : 음수이면 왼쪽으로 긴꼬리를 갖는다
분산 : 자료의 모든 데이터에 대하여 평균으로부터 흩어진 정도
제곱합 그래프
k평균군집을 수행할 때 초깃값 seed의 개수 k값을 결정하는 것은 쉽지 않다 . k값을 결정하는 방법
와드연결법
자료들이 군집화될 때 생성된군집과 군집 밖의 자료의 거리를 계산할 때 군집에 속한 자료의 편차제곱합이 최소가 되는 위치와의 거리를 사용하는 방법
분산식
Var(x) = E(x^2) - E(x)^2
R
오픈소스
활발한 커뮤니티와 다양한 논문 등 자료가 많아 알고리즘 구현이 쉽다
모듈화로 인해 설치 용량이 비교적 적다
R은 c언어 아닌 s언어
score = estimate(intercept) + estimate1a + estimate2b ........
사후검정방법
tukey 검정
bonferroni검정
fisher'lsd
주스를 구매고객이 사과를 구매할 확률 ( 신뢰도)
구매율 = 주스+ 주스사과 + 주스 빵 + 사과 주스 빵 / 전체거래수 = 100/200
지지도 = 사과주스 + 사과주스빵/ 전체거래수 = 40/200
신뢰도 = 지지도/ 구매율
의사결정나무
모델 직관적이고 해석이 용이하나, 독립변수들 사이의 중요도 판단이 쉽지 않다는 어려움
이상값에 민감하지 않다는 장점이 있으나, 과적합 발생 가능성이 높다는 문제점이 있다
chaid 알고리즘과 cart 알고리즘이 이산형, 연속형 모두 적용 가능 c4.5는 이산형만 가능
데이터에 대한 선형성, 정규성 등 가정이 필요하지 안흥나, 분류 경계선 근처 자료에 대한 오차가 크다
계산값 - 0.2 활성화함수로 입력하면 relu= max(0,x) 이므로 = 0
민감도
분산팽창계수(vif)
데이터 사이언티스트의 요구역량
r의 ggplot 또는 matplotlib와 seaborn
빅데이터 분석 방법론
강력한 호기심
빅데이터 활용 기본 테크닉과 사례
유형분석 : 기업의 경영 상태, 채권 관련 재무 상태 등으로 기업의 파산/ 희생 여부 분류
회귀 분석 : sns 이용 시간 대비 온라인 상에 흩어져 있는 개인 정보 데이터 양의 관계
연과 분석 : a를 시청한 고객이 b를 시청할 가능성을 파악하여 추천여부를 결정
분석마스터 플랜
탐색한 문제에 대한 해결 방안들을 총체적인 관점에서 적용 우선 순위를 설정하기 위함이다
우선 순위 결정을 위해서는 전략적 중요도, roi 관점 등의 요소를 고려
분석 마스터 플랜은 분석과제 도출, 우선 순위 평가, 이행 계획 수립 순서로 수행된다
실행용이성은 적용 범위 및 방식이 아닌 우선순위 고려요소
분석기획 고려사항
확산 단계 평가 요소
R apriori 알고리즘 연관규칙함수
서로 독립 사건 계산
독립이면 anb는 a*b
다중 공선성
회귀 분석에서 독립 변수 사이에 상관성이 존재하여 회귀식 추정이 어려운 문제
이산확률: 기하, 다항, 포아송
연속: 균일분포
분산 : var = np(1-p)
cutoff value
데이터 마이닝의 여러 기법들 중 이진 분류를 목적으로 하는 경우 1에 속할 확률 값을 반환하여 yes 와 no로 분류
모형의 성능에 중요한 영향을 미치며 일반적으로 0.5값을 사용하지만 ues로 분류하기 위한 최소학률 값
향상도 곡선
성능평가하기 위한 그래프 중 하나로 랜덤모델과 비교하였을 때 일부 상위 데이터에서 모델의 성능이 얼마나 우수한지 평가하기 위한 그래프
일표본검정
야구선수 a의 타율이 3할인지 아닌지 검정
이 표본 검정
새로 개발한 시약의 효과가 있는지 없는지 검정
분산검정
한 야구팀에 소속된 타자들의 타율이 모두 비슷한지 아닌지 검정
포아송분포
이산확률 분포 중 하나로 주어진 시간 단위 또는 공간 내에서 특정 사건이 몇번 발생할지 확률을 나타내는 분포
사과가 구매될 때 빵이 구매될 확률
사과빵 동시 / 사과만 거래
일차원적분석과 가치 기반 분석
일차원적 분석은 해당 부서 및 내부 문제에만 국한되지만, 전사적인 성공을 위해서라면 가치기반분석이 수반되어야한다
일차원적 분석을 통해 작은 성공으로부터 분석범위를 보다 넓게 전략적으로 변화를 줌으로써 가치 기반 분석으로 나아가야한다
금융 서비스에서의 일차원적 분석 사례는 신용점수, 사기탐지 등이있다
인구통계학적 변화는 전사적분석에서 고려
데이터 모델링
데이터 포인트 간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스
데이터 거버넌스 체계
명명 규칙 수립
메타데이터 구축
데이터 사전 구축
능력 성숙도 통합 모델 4단계
체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태
무한히 반복 관측치가 선정되지 않을 확률
36.8
텍스트 마이닝
분석 대상이 텍스트라는 비정형 데이터 → 비정형 데이터 마이닝으로 분류
단어의 어원을 찾는 작업 : 스태밍
문서요약, 분류, 군집, 추출 등
감정분석 : 오피니언 마이닝
k평균 군집
한번 군집에 속한 데이터는 seed가 변경되어도 다른 군집으로 이동할 수 있다
seed를 결정할 때 기존 군집들의 평균 값보다 중앙값을 활용하여 이상값에 민감한 문제를 보완할 수 있다
탐욕적알고리즘 안정적 군집보장
제곱합그래프로 k값 선정
회구분석결과
다중회귀분경우 다중공선성의 여부를 판단해야한다
독립변수 유의성 p-value
의사결정나무
이상값에 민감하지 않으며, 선형성,정규성 등의 가정이 불필요해 가장 보편적
종속변수가 연속형인경우에도 chaid 또는 cart 알고리즘을 활용하여 의사결정나무를 구축할 수 있다.
독립변수 사이의 중요도는 판단어렵
분산분석
등분산성
-정규성
-독립성
이원분산분석
abc 상품 모두 구매 어떤상품 더 만족도 높음? vvip.vip일반고객을 나누어 비교
scm
기업이 외부 공급업체, 물류, 유통업체의 협력을 바탕으로 통합된 정보 시스템으로 연계하여 시간과 비용, 재고를 최적화하기 위한 목적으로 활용하는 데이터 베이스 시스템
분석기회발굴
경쟁자확대관점 : 대체재, 경쟁자, 신규진입자
분석기회 시 고려사항
가용데이터 고려
적절한 활용방안, 유스케이스 탐색
장애요소
프로젝트 핵심목표 정의
sow
분석기법
회귀분석 : 지도학습
주성분, 다차원, 군집 : 비지도학습
통계추론
신뢰도값이 커지면 구간추정길이 넓어진다
덴드로그램은 시각화 분류모형 x
분류모형 평가
이익도표, roc커브, 혼동행렬
ab동시포함/ a포함 : a→b 신뢰도
백색잡음
-평균 0 분산이 정규분포
편향, 분산
모두 최소가 이상적 모형
분산이 크다 → 예측값 차이 크다
편향 커지면 분산작아지는 경향
expectation maximization
혼합분포
소프트 맥스
목표변수가 범주형
결측값 처리
결측값이 많지 않으면 단순 대치
esd
이상값 판단기준으로 평균으로 부터 3표준편차 만큼 떨어진 지점 기준
군집분석
계측정 군집분석은 사전에 군집 개수를 미리 결정하지 않아도 된다
빅데이터 출현배경
게놈 프로젝트
누적된 다양한 고객정보
인터넷보급 기술발전
-정형화 x
데이터 오용
발권거부
분산형 조직
전사내 별도 분석조직
현업 부서로 배치
우선 순위 선정가능
프로젝트 관리 영역 10가지
통합
이해관계자
범위
자원
시간
원가
ㄹ;ㅣ스크
품질
조달
의사소통
관리 x
분석과제 관리 프로세스
수행된 분석과제 결과는 과제 결과로 풀로서 관리
선정과제만 후보로 관리
분석 마스터 플랜
전략적 중요도
비즈니슷성과
실행요이성
기술적용수준은 적용 범위/ 방식 고려
연속형 확률 변수
∫x f(x) dx
연관분석의 지표
지지도, 신뢰도, 향상도
분산
x^2 * p - (1/n)^2
오즈
성공확률을 실패확률 나눈값
분해시계열 요소
계절
순환
불규칙
추세
마할라노비스
변수의 표준화와 변수의 상관성 고려