데이터를 분석에 활용하기 위해 데이터웨어하우스(DW)와 데이터마트(DM)에서 데이터를 가져옴
데이터웨어하우란?
데이터 마트란?
ODS(Operational Data Store : 운영 데이터 스토어)란?
스테이지 영역(staging)
-데이터 전처리를 통해 DW와 DM에 결합하여 사용
ex-공공데이터(사용에 따라 ODS가 될 수 있음...애매), 크롤링
ODS와 staging의 차이는 어떤 데이터냐이기보단 정제가 되어있냐 안 되어있냐가 될것 같음
데이터의 처리 과정(이해 한방 컷)
anlaysis tool - R,python,SQL 등등...
탐색적 자료 분석(EDA:Exploratory data analysis)
시각화
가장 낮은 수준의 분석
대용량데이터를 다루는 빅데이터 분석에 필수적(방대한 데이터의 직관적 이해를 위함)
탐색적 분석이란?
공간분석
공간적 차원과 관련된 속성을 시각화 하는 분석
통계분석
통계 : 어떤 현상을 일정한 체계에 따라 숫자, 표, 그림의 형태로 나타난 것
통계의 종류
기술통계 : 모집단에서 표본 추출, 추출된 표본이 가지고 있는 정보를 파악하기 위해 데이터를 정리, 요약하는 절차 / 데이터의 특성을 요약하는 방법을 말합니다. 기술 통계는 데이터의 평균, 분산, 표준 편차, 최빈값, 사분위수 등을 계산하여 데이터의 특성을 간단하게 요약할 수 있습니다. (이걸 시간순으로 모으면 시계열데이터..?)
추측통계 : 모집단으로부터 추출된 표본의 표본 통계량으로부터 모집단 특성인 모수에 관해 통계적으로 추론하는 절차
모수란?
데이터 마이닝
대용량의 자료로부터 정보를 요약, 미래에 대한 예측을 목표로 자료간 관계, 패턴, 규칙을 탐색하고 이를 모델링하여 이전에는 몰랐던 유용한 지식을 추출하는 방법, 데이터에서 쓸만한 정보를 추출하는것을 데이터 마이닝이라고 하는듯 통계로 알아낸것이라고 보면 되려나?...아닌듯 GPT에게 물어보자~
데이터 마이닝과 통계는 종종 같이 사용되지만, 다른 목적과 접근 방식을 가지고 있는 관련 분야입니다.
데이터 마이닝은 대량의 데이터에서 숨겨진 패턴이나 지식을 발견하는 과정을 말합니다. 통계학, 머신 러닝, 데이터베이스 시스템 기술을 사용하여 의미있는 관계, 데이터 분류, 예측을 식별합니다. 데이터 마이닝은 일반적으로 비즈니스, 금융, 마케팅 분야에서 고객 행동, 시장 트렌드 등에 대한 통찰력을 얻기 위해 사용됩니다.
반면에, 통계는 데이터의 수집, 분석, 해석, 제시를 다루는 수학의 한 분야입니다. 수학적 모형과 알고리즘을 사용하여 데이터를 요약하고 설명하고, 구성원에 대한 가설을 세우고, 가설을 검정합니다. 통계는 의학, 공학, 사회 과학 등 다양한 분야에서 활용되며, 데이터에서 의미있는 관계, 특징, 패턴을 식별하고 예측 모형을 만드는 데 사용됩니다.
데이터 마이닝 종류
기계학습(machine Learning) : 컴퓨터 프로그래밍을 통해 데이터로부터 스스로 학습하고 결정을 내리는 능력을 갖춘 알고리즘을 개발하는 분야입니다.
ex - 인공신경망(딥러닝같은데), 의사결정나무, 클러스터링(군집분석? 분류문제?), SVM
패턴인식 : 원시 데이터를 이용하여 기존 지식과 패턴에서 발견된 통계 정보를 바탕으로 패턴을 분류하는 방법(머신러닝 기술의 일종)
ex - 장바구니 분석, 연관규칙
딥러닝 : 머신 러닝의 한 분야로, 여러 층으로 구성된 신경망(Neural Network) 구조를 통해 매우 복잡한 문제를 풀 수 있는 능력을 갖춘 알고리즘을 개발하는 분야입니다.
인공 신경망(Artificial Neural Network)은 사람의 뇌와 같은 뉴런을 구조적으로 모방하여 구축된 머신 러닝 모델입니다. 인공 신경망은 다양한 입력을 받아 이를 분석하여 특정 출력을 생성하는 기능을 갖습니다. 인공 신경망은 주로 이미지 분류, 언어 모델링, 자연어 처리 등의 작업에 사용됩니다.
클러스터링(Clustering)은 데이터 마이닝의 한 분야로, 비슷한 특성을 가진 데이터 간의 그룹을 찾는 기술입니다. 클러스터링은 데이터를 여러 그룹으로 분류하는 것을 목적으로 하며, 그룹 내의 데이터 간의 유사성을 기준으로 클러스터를 구성합니다. 클러스터링은 시각화, 고객 세분화, 마케팅 분석, 문제 해결 등에 사용될 수 있습니다.
시뮬레이션 - 데이터 마이닝에서 미지의 시스템을 컴퓨터로 모사하여 결과를 예상하고, 분석하는 과정을 말합니다. 시뮬레이션을 통해 미지의 시스템의 결과를 예측할 수 있어서, 미래의 결과를 예상하고 결정적인 전략을 수립할 수 있습니다. - 복잡한 실제 상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경
최적화 - 데이터 마이닝에서 모델을 개선하고, 가장 좋은 결과를 얻기 위해 모델의 파라미터를 조정하는 과정을 말합니다. 최적화 과정을 통해 모델이 데이터에 가장 잘 맞도록 조정됩니다. - 제약조건 하에서 목표값을 개선하는 방식