특징 : 단순한 객채로도 가치 있음, 객체 간 상호관계 속 더 큰 가치정량 데이터 : 숫자1-1. 정형 : 정해진 형식, 구조 (RDBMS)1-2. 반정형 : Schema 정보를 데이터와 함께 제공, 연산 불가 (JSON, XML)정성 데이터 : 문자, 함축적 의미를
데이터 정의→수집→변환→모델링→시각화의 일련의 과정 데이터 분석의 지향점1\. 전략적 통찰이 없는 데이터 분석의 배제2\. 일차원적 데이터 분석 지양3\. 전략 도출을 위한 가치 기반 데이터 분석을 통한 해당 사업의 중요 기회 발견 데이터 분석 시 고려사항: 데이터 분
데이터 분석 → 하나의 기업 문화로 정착: 기획/관리 조직 + 과제 기획/운영 프로세스 + 지원 인프라 + Data Goverance + 분석 교육 및 HR: 과제 발굴 단계 ▶ 과제 수행 및 모니터링 단계과제 발굴 단계: 분석 Idea 발굴 → 분석 과제 후보 제안
Part 1. 빅데이터분석기획 Chapter 03. 데이터 수집 및 저장 계획 Section 01. 데이터 수집 및 전환 1. 데이터 수집 기초 데이터 수집 수행 절차 : 비즈니스 도메인 정보 수집 ▶ 분석기획서 기반 도메인 및 서비스 이해 ▶ 수집 Data 탐
Part 2. 빅데이터 탐색 Chapter 01. 데이터 전처리 Section 01. 데이터 정제 데이터 관련 정의 데이터 : 사실/자료, 기호화/수치화된 자료 단위(Unit) : 관찰되는 항목 관측값 : 조사 단위별 기록 정보/특성 변수 : 각 단위에서 측정된
독립 변수를 효율적으로 선택하는 과정전체 모형 FM : 모든 독립 변수 사용축소 모형 RM : 전체 모형에서 사용되는 변수의 수 감소영 모형 NM : 사용하는 독립변수 0개전진선택법 : NM에서 시작, 중요 변수를 차례로 모형에 포함(한 번 추가된 변수는 제거 X)=>
Chapter 02. 데이터 탐색 Section 01. 데이터 탐색의 기초 1. 탐색적 데이터 분석 : EDA 수집한 데이터에 대해 다양한 방법으로 관찰 / 이해하는 과정 필요성 내재된 잠재적 문제에 대한 이해 및 해결안 도출 문제 정의 단계에서 놓친 새로운 양
데이터 속성 파악/처리 → 분석 모향 선정 및 적합한 분석 기법 선택데이터가 준비되지 않았다면, 사전 분석 목적을 명확히 해야함분석 모형 선정 프로세스1\. 문제 요건 정의 : 데이터 선정, 분석 목표 및 조건 정의2\. 데이터 수집, 정리, 도식화3\. 데이터 전처리
Chapter 02. 분석 기법 적용 Section 01. 분석기법 1. 분석기법 개요 1-1. 지도 학습 정답이 있는 데이터(Labelled Data)로 학습 : Training Dataset / Test Dataset Classification :
Section 02. 고급 분석 기법 1. 범주형 자료분석 변수들이 이산형 변수일 때, 빈도를 로 나타내는 것. 1-1. 분석 방법 > 자료의 형태에 따른 분류 > 독립변수 : 범주형 / 종속변수 : 범주형 => 빈도분석, 카이제곱 검정, 로그선형모형 > > 독립
오차행렬: 분석모형의 답과 실제 결과와의 관계: 예측값과 실제값 비교를 통한 분류 성능 측정정확도 : Accuracy: 전체적인 분류 성능, 실제 데이터 = 예측 데이터: TP + TN / TP + FP + FN + TN정밀도 : Precision: Positive라고
Section 02. 분석모형 개선 1. Overfitting 방지 1-1. 모델 복잡도 감소 정규화, Dropout 등을 통해 적절한 복잡도의 모델 탐색 가중치 매개변수(학습 중 지속적으로 가중치 변화) → 상수값 하이퍼 파라미터 사용\ 1-2. 가중치 감소 큰
모델마다 해석 지표 상이잔차 : 실제값과 예측값의 차이: MAE, MSE, MAPE, RMSE, RMSLE결정계수 : 추정된 회귀식이 변동을 잘 설명한 정도: 1에 가까울수록 좋다.: R^2, Adjusted R^2각 경우에 따른 클래스 별 속할 확률의 정확도: 정확도