2025년 올해의 첫번째 목표로 정한 ADP 자격증 취득!!
준비과정을 위해 필기내용을 요약하여 정리하고자 한다.
데이터 분석 기초
데이터 정의
데이터란 무엇인가?
- 연구, 조사 등의 바탕이 되는 재료/자료
- 기술적/사실적인 의미의 자료
데이터와 정보의 차이
- 데이터: 있는 그대로의 객관적인 사실로 가공되지 않은 자료.
- 정보: 데이터로부터 얻은 것으로, 가공된 자료.
데이터의 특성
- 존재적 특성: 데이터는 있는 그대로의 객관적 사실.
- 당위적 특성: 데이터는 추론, 예측, 전망, 추정을 위한 근거.
데이터의 유형
정성적 데이터
- 집합으로 표현할 수 없음, 기준이 명확하지 않음.
- 예: 언어, 문자, 텍스트 등.
정량적 데이터
- 집합으로 표현할 수 있음, 기준이 명확함.
- 예: 수치, 도형, 기호 등.
데이터의 구조에 따른 분류
- 정형 데이터: 관계형 DB에 저장, 관리 용이. 예: CSV, 엑셀.
- 반정형 데이터: 파일 형태로 저장, 정형 데이터로 변환 가능. 예: XML, JSON.
- 비정형 데이터: 관리가 어렵고, 주로 NoSQL DB에 저장. 예: 이미지, 음성, 텍스트.
암묵지와 형식지
암묵지 (Tacit Knowledge)
- 학습과 체험을 통해 개인에게 습득된, 겉으로 표출되지 않는 지식.
형식지 (Explicit Knowledge)
- 암묵지가 문서나 매뉴얼처럼 외부로 표출된 지식, 여러 사람들과 공유 가능.
SECI 모델
- 암묵지와 형식지의 상호작용:
- 공동화: 경험 공유를 통해 새로운 암묵지 창조.
- 표출화: 암묵지를 형식지로 변환.
- 연결화: 표출된 형식지를 새로운 지식 체계로 확장.
- 내면화: 형식지를 개인의 암묵지로 내재화.
DIKW 피라미드
- 데이터: 객관적 사실, 의미는 중요하지 않음.
- 정보: 데이터의 가공과 처리로 연관 관계와 의미를 도출.
- 지식: 정보를 구조화하여 고유의 지식으로 내재화.
- 지혜: 지식의 축적과 깊은 이해.
데이터베이스
데이터베이스 정의
- 우리나라 저작권법: 체계적/조직적으로 정리되어 개별적으로 접근 가능한 독립된 데이터 집합.
- 정보통신 용어사전: 여러 요구에 대응하여 데이터를 받아들이고 저장, 공급할 수 있도록 구조화된 데이터 집합.
데이터베이스 특징
- 통합된 데이터: 중복 없이 통합.
- 저장된 데이터: 저장매체에 기록.
- 공용 데이터: 여러 사용자가 공유.
- 변환 가능한 데이터: 삽입, 수정, 삭제로 항상 최신 데이터 유지.
데이터베이스 관리 시스템 (DBMS)
- 데이터베이스를 쉽게 구축, 유지 관리할 수 있도록 지원하는 소프트웨어.
데이터베이스의 활용
트랜잭션 특성 (ACID)
- 원자성 (Atomicity): 트랜잭션은 모두 실행되거나 전혀 실행되지 않아야 함.
- 일관성 (Consistency): 트랜잭션의 결과는 항상 일관성을 유지해야 함.
- 고립성 (Isolation): 다른 트랜잭션에 영향을 주지 않아야 함.
- 지속성 (Durability): 완료된 트랜잭션 결과는 영구적으로 유지.
기업 활용 사례
- OLTP: 거래 단위 중심의 시스템.
- OLAP: 데이터 분석 중심의 시스템.
- SCM: 공급망 최적화.
- CRM: 고객 관계 관리.
- ERP: 비즈니스 단계를 통합.
ADP 필기 관점 추가
데이터베이스 설계와 활용
- 논리적 데이터 모델링: 엔터티 간 관계 정의, 데이터 구조 설계.
- 물리적 데이터 모델링: 저장소 최적화, 성능 튜닝.
- 정규화: 데이터 중복 제거, 무결성 유지.
- 데이터 무결성: 참조, 엔터티, 도메인 무결성 유지.
SQL 활용 능력
- 기본 SELECT 문부터 JOIN, 서브쿼리, 집계 함수까지의 활용.
- 트랜잭션 처리: COMMIT, ROLLBACK, SAVEPOINT 사용.
- 성능 최적화: 인덱스 설계, 쿼리 튜닝.
빅데이터의 이해
빅데이터의 특징 (5V)
- Volume: 정보량의 기하급수적 증가.
- Variety: 데이터 유형의 다양화.
- Velocity: 데이터 생성 및 처리 속도의 증가.
- Value: 데이터 분석으로부터 가치를 도출.
- Veracity: 데이터 신뢰성과 정확성.
빅데이터의 가치
- 인사이트 발굴: 데이터를 통해 의미 있는 통찰력 도출.
- 활용 예시:
- 기업: 소비자 행동 분석, 시장 예측.
- 정부: 교통, 기후, 안전 관리.
- 개인: 스마트 라이프 지원.
데이터 사이언스
정의
- 데이터를 분석하고, 의미 있는 정보를 도출하여 비즈니스 인사이트를 제공하는 학문.
데이터 사이언티스트의 역량
- 하드 스킬: 빅데이터 지식, 분석 기술 숙련.
- 소프트 스킬: 창의적 사고, 논리적 비판, 스토리텔링 능력.
데이터 사이언스의 한계
- 모든 분석은 가정에 기반하며, 현실의 변화와 가정 간 불일치를 인식해야 함.
데이터 처리 프로세스
ETL은 데이터를 추출(Extraction), 변형(Transformation), 적재(Loading)하는 프로세스를 말하며 데이터 이동과 변환의 핵심입니다.
ETL의 주요 단계:
-
Extraction (추출):
- 다양한 데이터 원천(Source)에서 데이터를 가져오는 단계.
- 데이터베이스, API, 파일 등에서 데이터를 추출.
-
Transformation (변형):
- 데이터 클렌징, 형식 변환, 표준화 등 비즈니스 규칙을 적용.
- 중복 제거, 결측값 처리, 데이터 통합 수행.
-
Loading (적재):
- 변형된 데이터를 목표 시스템(DW, 데이터 마트)에 적재.
- 적재 방식은 초기 적재(Full Load)와 증분 적재(Incremental Load)로 구분.
ETL의 활용:
- 데이터 통합, 이동, 마스터 데이터 관리.
- 운영 데이터베이스(OLTP)에서 분석 데이터베이스(OLAP)로 데이터 이동.
ODS (Operational Data Store)
ODS는 실시간 데이터 처리를 위해 데이터 원천(Source)으로부터 데이터를 추출/통합하여 저장하는 임시 데이터 저장소입니다.
ODS의 구성 단계:
- Interface: 데이터 원천에서 데이터 획득.
- Staging:
- 데이터를 임시 테이블에 저장.
- 데이터 통제 정보(예: 타임스탬프) 추가.
- Profiling: 데이터 특성 식별 및 품질 점검.
- Cleansing: 오류 데이터를 수정하여 데이터 품질을 개선.
- Integration: 클렌징된 데이터를 단일 통합 테이블에 적재.
- Export: 데이터를 DW, 데이터 마트 또는 OLAP에 적재.
OLAP (Online Analytical Processing)
OLAP는 데이터 웨어하우스에 저장된 데이터를 다차원 분석하는 기술로, 다음을 지원합니다:
- 데이터 탐색 및 집계.
- 다차원 관점(지역, 시간, 제품 등)에서의 데이터 분석.
OLAP의 유형:
- ROLAP (Relational OLAP): 관계형 데이터베이스를 기반으로 분석 수행.
- MOLAP (Multidimensional OLAP): 다차원 큐브를 사용하여 빠른 분석 제공.
- HOLAP (Hybrid OLAP): ROLAP과 MOLAP의 장점을 결합.
데이터 웨어하우스
데이터 웨어하우스는 조직의 다양한 데이터를 통합하여 분석과 의사결정에 활용하는 데이터 저장소입니다.
데이터 웨어하우스의 특징:
- 주제 중심성: 업무 항목별로 데이터 구조화.
- 통합성: 다양한 데이터 소스를 통합.
- 시간성: 데이터의 시계열적 변화 기록.
- 비휘발성: 데이터는 삭제되지 않고 보존.
스타 스키마와 스노우 플레이크 스키마
스타 스키마:
- 단일 사실 테이블을 중심으로 다수의 차원 테이블 구성.
- 단순하고 이해하기 쉬운 구조.
스노우 플레이크 스키마:
- 차원 테이블을 추가로 정규화하여 데이터 중복 제거.
- 데이터 저장 공간 절약 가능.