1 과목
1. DIKW 피라미드
지혜 – A 마트의 다른 상품이 B보다 쌀 것이다 판단
지식 – 상대적으로 저렴한 A마트에서 연필 구매 결심
정보 – A마트의 연필이 더 싸다
데이터 – A는 100원 B는 200원에 연필을 판다
형식지 – 문서나 매뉴얼처럼 형상화 된 지식
ex) 교과서, 비디오, DB
특징 – 전달과 공유 용이 => 표출화 / 연결화
빅데이터에 거는 기대를 표현한 것 => 렌즈
인문학 열풍 – 단순 세계화에서 복잡한 세계화로 바뀌었다.(반대로 적혀있는 보기 많음)
개인정보 비식별화 기술
가명처리 – 개인정보의 주요 식별요소를 다른 값으로 대체해 개인 식별을 어렵게 만듬
데이터 마스킹 – 속성은 유지한채, 익명으로 생성
CRM -> 고객 관계관리 데이터베이스 (기업 내부)
ERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적
빅데이터 가치측정 어려운 이유: 1) 데이터 재사용, 재조합, 다목적용 개발
2) 새로운 가치 창출
3) 분석 기술 발전
DBMS에 관한 설명
데이터 사이언스에 대한 설명
주로 분석의 정확성에 초점을 두고 진행한다 X => 통찰력 있는 분석을 한다.
데이터 웨어하우스 VS 데이터 마트
데이터 웨어하우스 : 시간의 흐름에 따라 변화하는 값 저장 / 통함된 데이터 저장 공간
데이터 마트 : 해당 분야의 전문성을 갖춘 것. / 재무,생산,운영과 같이 특정 업무 분야에 초점을 맞춤.
DB와의 통신을 위해 고안된 언어 – SQL
빅데이터가 발생시키는 문제를 중간자 입장에서 중재하고 해결하는 역할을 하는 직업
데이터의 크기 순서
페타바이트 -> 엑사바이트 -> 제타바이트 -> 요타바이트
빅데이터 활용에 필요한 기본적인 3요소
데이터베이스의 구성요소
다른 데이터를 설명해주는 데이터 – 메타데이터
데이터를 신속하게 정렬하고 탐색하게 해주는 구조 – 인덱스
빅데이터 시대에 가치 패러다임의 변화
디지털화 -> 연결 -> 에이전시
2 과목
거시적 관점 메가트렌드 정치적 => 보기에 거시적 흐름 + 정책 나오면 맞음
분석 프로젝트 영역별 주요 관리 항목 -> 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스트 / 의사소통 / 이해관계자
시장 니즈 탐색 관점에서 고객 니즈의 변화 -> 고객, 채널, 영향자
분석과제 중에 발생된 시사점과 분석 결과물 이 풀로 관리되고 공유됨. 확정된 분석과제는 풀로 관리하지 않는다.
분석 조직
기능형 – 별도의 분석 조직이 X. 해당 업무 부서에서 분석을 수행. 국한된 분석수행 이슈
분산형 – 분석조직의 인력을 현업 부서에 배치, 신속한 실무 적용 가능.
집중형 – 별도의 분석 전담 조직 구성. 업무의 이원화 이슈
경쟁자 확대 관점 – 대체제 / 경쟁자 / 신규 진입자
분석 과제 발굴
상향식 – What 관점
순서 : 프로세스 분류 -> 프로세스 흐름 분석 -> 분석 요건 식별 -> 분석 요건 정의
하향식 – Why 관점 / 타당성 검토 단계에서는 다양한 사람들의 의견 조합이 필요
4V
Volume / Variety / Velocity / Value
빅데이터 시대의 위기 요인 및 통제 방안
KDD 분석 절차
데이터 변환 – 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 것
데이터 전처리 -
데이터 선택 -
CRISP-DM
각 단계는 폭포수로 구성돼 있지 않다. - 피드백을 통해 단계별로 완성도를 높임
비즈니스 모델 캠퍼스를 활용한 과제 발굴 영역
업무 – 내부 프로세스 및 주요 자원 관련 도축
제품 – 제품,서비스를 개선하기 위한 관련 주제 도출
고객 – 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
규제와 감사 – 규제와 보안의 관점에서 주제를 도출
분석 프로젝트 관리
분석 프로젝트의 일정 계획 수립시 철저한 일정관리가 필요 (통제와 관리로 많이 나옴)
성공적인 분석을 위해 고려해야 하는 요소가 아닌 것 -> 관련 데이터 파악, 원점에서 솔루션 탐색, 이행 저해 요소 관리
CRISP-DM 모델링 단계에서 수행하는 것 -> 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 (모델 적용성 평가 X)
빅데이터 거버넌스 -> 회사내 모든 데이터 활용, 철저한 변경관리 필요, 요소별로 구분하여 작성, 수명주기관리 중요
분석 준비도에서 분석 업무 파악 영역으로 부적절 한 것
난이도와 시급성을 고려했을 때 우선적으로 추진할 분석 과제
난이도 쉬움, 시급성 현재
모델링 목적에 따라 변수를 정의하고 필요한 데이터를 소프트웨어에 적용하기 위한 활동 – 데이터 가공 단계
3과목
과대적합 – 모형 개발 데이터로는 높은 적중률 / 테스트 데이터에서는 적중률 유지 못하는 것
측정 척도
명목 – 어느 집단에 속하는지 (성별, 출생지 / 질적척도)
순서 – 서열관계 (만족도, 선호도, 학년, 신용등급 / 질적척도)
구간 – 절대적인 영점이 없음. 두 관측 값 사이의 비율이 의미없음.(온도, 지수 / 양적 척도)
비율 – 절대 0기준 / 사칙연산 사용가능.(무게, 나이,시간,거리 / 양적 척도)
c(2, 4 ,6 ,8) + c(1, 3, 5, 7, 9)
=> 경고 메시지와 함께 결과가 출력
모분산 추론
표본의 분산은 카이제곱을 따름.
다중회귀분석은
전진선택법 – 중요하다고 생각되는 설명 변수부터 차례로 선택하는 방법
후진선택법 -
단계적 선택법
이상치
Q1-1.5IQR < x < Q3 + 1.5IQR이 이상치
평균으로부터 3*표준편차 범위를 벗어나는 것을 비정상 이라 규정하지만 제거 불가
상관분석
R에서 상관계수 = cor() / rcorr() => rcorr() 함수를 사용하면 type 인자를 통해 피어슨과 스피어만 상관계수 선택가능
R^2에 대한 설명
종속변수에 미치는 영향이 적은 독립변수가 추가되면 결정계수도 변한다.
시계열의 정상성
12-1. 시계열 요소 분해 법
1) 추세 분석 : 장기적으로 커지거나 작아지는 변화를 나타내는 요소
2) 계절 변동 – 일정한 주기를 가지고 같은 패터는 보이는 요소
3) 순환 변동 – 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
4) 불규칙 변동 – 환경변화, 천재지변 같은 것.
모형의 성능평가 할 때 민감도와 특이도를 산출해 도표에 도식화 하는 방식
=> ROC : x는 1-특이도 / y는 민감도
K-means 군집 분석과 계층적 군집 분석의 차이
K-means는 동일 거래 계산법 사용하면 다른결과 계층적 군집 분석은 동일한 결과.
15.데이터 마이닝 분석 방법론
장바구니 분석 - “샌드위치를 사는 고객의 30%가 탄산수를 함께 산다”
이상값 검색을 활용한 응용 시스템 => 부정사용 방지 시스템
다차원척도법
유클리드 – 루트를 씌우고 각 값 뺀 후 제곱값을 더함 / 가장 짧은 직선거리
맨하튼 – 절대값씌우고 각 값을 뺀후 더함 / 각 방향 직각의 이동 거리 합으로 계산.
표준화 거리 – 표준편차로 변환 후 유클리드 거리를 계산한 거리
마할라노비스 거리 – 통계적 개념이 포함된 거리, 사전 지식 없이 표본 공분산 계산 불가. (보통 오답으로 자주 출제)
비지도 학습
OLAP / 연관성규칙 / 군집분석 / SOM
오분률에 대한 추정치
정확도 = TN + TP / TN + TP + FN + FP => 양성,음성이라 판단되는 값 / 실제 양성과 음성의 값
특이도 = TN / TN + FP => 음성이라 판단되는 값 / 실제 음성의 값
민감도 = TP / TP + FP => 양성이라 판단되는 값 / 실제 양성 값
재현율 = TP / TP + FN
인공 신경망
시그모이드 – y = 1 / 1+ exp(-x) / 시그모이드 활용하면 로지스틱 회귀 모형의 작동원리와 유사해짐 / 결과값 : 0 <= y <= 1
ReLU -
Softmax(소프트맥스) - 출력값이 여러개고 목표치가 다범주인 경우에 사용
활성화 함수 – 입력받은 데이터를 다음층으로 어떻게 출력할지를 결정하는 함수.
K-mean(평균) 군집 분석 특징
중앙 50% 데이터들이 흩어진 정도
=> 사분위수 범위
이산형 확률 분포
기하 / 이항 / 초기하
R에서 사용 가능한 데이터 오브젝트
데이터 프레임은 테이블로 된 데이터 구조로써 리스트로 표현됨.
종족변수를 설명하는데 가장 중요한 독립변수
두 개 이상의 독립변수를 사용해 다중 회귀 분석을 실시할 때
-> 상관계수를 통해 모형의 설명력을 확인한다 (X)
데이터 마이닝을 위한 데이터 분할에 대한 설명으로 틀린 것
통계학에 적용되는 교차확인은 데이터 마이닝에서 활용할 수 없다. (X)
비계층적 군집분석의 장점
사전에 주어진 목적이 없으므로 결과 해석이 쉽다 (X) 어렵다(O)
모든 변수의 상관계수가 1이다 (분산이 1 X)
과대적합 관련 설명
2) 피어슨 상관계수
가설 검정 – 표본 관찰을 통해 그 가설의 채태여부 결정
예상되는 위험에 대한대비
기댓값 구하기
X 값 * f(x) 모든 값 더하기
목표변수가 연속형인 회귀나무에서 분류 기준 값의 선택 방법으로 가장 적절한 것은?
군집의 개수를 미리 정하지 않는 군집 모형 – 계층적군집 모형
모형평가 방법
R데이터 구조에서 숫자, 문자, 논리 모두 합쳐 하나의 벡터를 구성했을 경우 합쳐진 벡터의 형식
=> 문자형 벡터
분류 모형 평가를 위해 사용되는 방법
p-value가 작을수록 해당 검정통계량의 관측값은 귀무가설을 기각 하는 것으로 해석함.
구축된 모델의 과대 또는 과소 적합에 대한 미세조정 절차를 위해 사용되는 데이터 – 검증용 데이터
회귀분석
혼합분포모형에 대한 최대 가능도 추정량을 위해 사용되는 알고리즘 => EM 알고리즘
다중공선성
데이터 프레임에서 평균이 중앙값보다 크면 왼쪽 꼬리가 길게 나오고 평균이 중앙값 보다 높으면 오른쪽으로 꼬리가 길다.
확실하게 증명하고 싶은 가설로 뚜렷한 증거가 있어야 채택할 수 있는 가설 = 대립가설.
백색잡음
주로 분석의 정확성에 초점을 두고 진행한다 X => 통찰력 있는 분석을 한다.
72. ARMA (p, d, q)에서 d의 숫자 만큼 차분 한 것.
이산형 확률변수 = E(x) = 시그마xf(x)
고객의 신용도, 나이, 직업 등의 변수를 사용해 카드 월간 사용액을 예측하기 위함 모형 = 능형 회귀모형.
k-폴드 교차검증
좋은 자료 감사합니다