ADP 1과목 & 2과목

샘2·2025년 1월 19일
0
post-thumbnail

2025년 올해의 첫번째 목표로 정한 ADP 자격증 취득!!
준비과정을 위해 필기내용을 요약하여 정리하고자 한다.


데이터 분석 기초

데이터 정의

데이터란 무엇인가?

  • 연구, 조사 등의 바탕이 되는 재료/자료
  • 기술적/사실적인 의미의 자료

데이터와 정보의 차이

  • 데이터: 있는 그대로의 객관적인 사실로 가공되지 않은 자료.
  • 정보: 데이터로부터 얻은 것으로, 가공된 자료.

데이터의 특성

  • 존재적 특성: 데이터는 있는 그대로의 객관적 사실.
  • 당위적 특성: 데이터는 추론, 예측, 전망, 추정을 위한 근거.

데이터의 유형

정성적 데이터

  • 집합으로 표현할 수 없음, 기준이 명확하지 않음.
  • 예: 언어, 문자, 텍스트 등.

정량적 데이터

  • 집합으로 표현할 수 있음, 기준이 명확함.
  • 예: 수치, 도형, 기호 등.

데이터의 구조에 따른 분류

  • 정형 데이터: 관계형 DB에 저장, 관리 용이. 예: CSV, 엑셀.
  • 반정형 데이터: 파일 형태로 저장, 정형 데이터로 변환 가능. 예: XML, JSON.
  • 비정형 데이터: 관리가 어렵고, 주로 NoSQL DB에 저장. 예: 이미지, 음성, 텍스트.

암묵지와 형식지

암묵지 (Tacit Knowledge)

  • 학습과 체험을 통해 개인에게 습득된, 겉으로 표출되지 않는 지식.

형식지 (Explicit Knowledge)

  • 암묵지가 문서나 매뉴얼처럼 외부로 표출된 지식, 여러 사람들과 공유 가능.

SECI 모델

  • 암묵지와 형식지의 상호작용:
    1. 공동화: 경험 공유를 통해 새로운 암묵지 창조.
    2. 표출화: 암묵지를 형식지로 변환.
    3. 연결화: 표출된 형식지를 새로운 지식 체계로 확장.
    4. 내면화: 형식지를 개인의 암묵지로 내재화.

DIKW 피라미드

  • 데이터: 객관적 사실, 의미는 중요하지 않음.
  • 정보: 데이터의 가공과 처리로 연관 관계와 의미를 도출.
  • 지식: 정보를 구조화하여 고유의 지식으로 내재화.
  • 지혜: 지식의 축적과 깊은 이해.

데이터베이스

데이터베이스 정의

  • 우리나라 저작권법: 체계적/조직적으로 정리되어 개별적으로 접근 가능한 독립된 데이터 집합.
  • 정보통신 용어사전: 여러 요구에 대응하여 데이터를 받아들이고 저장, 공급할 수 있도록 구조화된 데이터 집합.

데이터베이스 특징

  • 통합된 데이터: 중복 없이 통합.
  • 저장된 데이터: 저장매체에 기록.
  • 공용 데이터: 여러 사용자가 공유.
  • 변환 가능한 데이터: 삽입, 수정, 삭제로 항상 최신 데이터 유지.

데이터베이스 관리 시스템 (DBMS)

  • 데이터베이스를 쉽게 구축, 유지 관리할 수 있도록 지원하는 소프트웨어.

데이터베이스의 활용

트랜잭션 특성 (ACID)

  1. 원자성 (Atomicity): 트랜잭션은 모두 실행되거나 전혀 실행되지 않아야 함.
  2. 일관성 (Consistency): 트랜잭션의 결과는 항상 일관성을 유지해야 함.
  3. 고립성 (Isolation): 다른 트랜잭션에 영향을 주지 않아야 함.
  4. 지속성 (Durability): 완료된 트랜잭션 결과는 영구적으로 유지.

기업 활용 사례

  • OLTP: 거래 단위 중심의 시스템.
  • OLAP: 데이터 분석 중심의 시스템.
  • SCM: 공급망 최적화.
  • CRM: 고객 관계 관리.
  • ERP: 비즈니스 단계를 통합.

ADP 필기 관점 추가

데이터베이스 설계와 활용

  • 논리적 데이터 모델링: 엔터티 간 관계 정의, 데이터 구조 설계.
  • 물리적 데이터 모델링: 저장소 최적화, 성능 튜닝.
  • 정규화: 데이터 중복 제거, 무결성 유지.
  • 데이터 무결성: 참조, 엔터티, 도메인 무결성 유지.

SQL 활용 능력

  • 기본 SELECT 문부터 JOIN, 서브쿼리, 집계 함수까지의 활용.
  • 트랜잭션 처리: COMMIT, ROLLBACK, SAVEPOINT 사용.
  • 성능 최적화: 인덱스 설계, 쿼리 튜닝.

빅데이터의 이해

빅데이터의 특징 (5V)

  1. Volume: 정보량의 기하급수적 증가.
  2. Variety: 데이터 유형의 다양화.
  3. Velocity: 데이터 생성 및 처리 속도의 증가.
  4. Value: 데이터 분석으로부터 가치를 도출.
  5. Veracity: 데이터 신뢰성과 정확성.

빅데이터의 가치

  • 인사이트 발굴: 데이터를 통해 의미 있는 통찰력 도출.
  • 활용 예시:
    • 기업: 소비자 행동 분석, 시장 예측.
    • 정부: 교통, 기후, 안전 관리.
    • 개인: 스마트 라이프 지원.

데이터 사이언스

정의

  • 데이터를 분석하고, 의미 있는 정보를 도출하여 비즈니스 인사이트를 제공하는 학문.

데이터 사이언티스트의 역량

  • 하드 스킬: 빅데이터 지식, 분석 기술 숙련.
  • 소프트 스킬: 창의적 사고, 논리적 비판, 스토리텔링 능력.

데이터 사이언스의 한계

  • 모든 분석은 가정에 기반하며, 현실의 변화와 가정 간 불일치를 인식해야 함.

데이터 처리 프로세스

ETL (Extraction, Transformation, and Load)

ETL은 데이터를 추출(Extraction), 변형(Transformation), 적재(Loading)하는 프로세스를 말하며 데이터 이동과 변환의 핵심입니다.

ETL의 주요 단계:

  1. Extraction (추출):

    • 다양한 데이터 원천(Source)에서 데이터를 가져오는 단계.
    • 데이터베이스, API, 파일 등에서 데이터를 추출.
  2. Transformation (변형):

    • 데이터 클렌징, 형식 변환, 표준화 등 비즈니스 규칙을 적용.
    • 중복 제거, 결측값 처리, 데이터 통합 수행.
  3. Loading (적재):

    • 변형된 데이터를 목표 시스템(DW, 데이터 마트)에 적재.
    • 적재 방식은 초기 적재(Full Load)와 증분 적재(Incremental Load)로 구분.

ETL의 활용:

  • 데이터 통합, 이동, 마스터 데이터 관리.
  • 운영 데이터베이스(OLTP)에서 분석 데이터베이스(OLAP)로 데이터 이동.

ODS (Operational Data Store)

ODS는 실시간 데이터 처리를 위해 데이터 원천(Source)으로부터 데이터를 추출/통합하여 저장하는 임시 데이터 저장소입니다.

ODS의 구성 단계:

  1. Interface: 데이터 원천에서 데이터 획득.
  2. Staging:
    • 데이터를 임시 테이블에 저장.
    • 데이터 통제 정보(예: 타임스탬프) 추가.
  3. Profiling: 데이터 특성 식별 및 품질 점검.
  4. Cleansing: 오류 데이터를 수정하여 데이터 품질을 개선.
  5. Integration: 클렌징된 데이터를 단일 통합 테이블에 적재.
  6. Export: 데이터를 DW, 데이터 마트 또는 OLAP에 적재.

OLAP (Online Analytical Processing)

OLAP는 데이터 웨어하우스에 저장된 데이터를 다차원 분석하는 기술로, 다음을 지원합니다:

  • 데이터 탐색 및 집계.
  • 다차원 관점(지역, 시간, 제품 등)에서의 데이터 분석.

OLAP의 유형:

  1. ROLAP (Relational OLAP): 관계형 데이터베이스를 기반으로 분석 수행.
  2. MOLAP (Multidimensional OLAP): 다차원 큐브를 사용하여 빠른 분석 제공.
  3. HOLAP (Hybrid OLAP): ROLAP과 MOLAP의 장점을 결합.

데이터 웨어하우스

데이터 웨어하우스는 조직의 다양한 데이터를 통합하여 분석과 의사결정에 활용하는 데이터 저장소입니다.

데이터 웨어하우스의 특징:

  • 주제 중심성: 업무 항목별로 데이터 구조화.
  • 통합성: 다양한 데이터 소스를 통합.
  • 시간성: 데이터의 시계열적 변화 기록.
  • 비휘발성: 데이터는 삭제되지 않고 보존.

스타 스키마와 스노우 플레이크 스키마

스타 스키마:

  • 단일 사실 테이블을 중심으로 다수의 차원 테이블 구성.
  • 단순하고 이해하기 쉬운 구조.

스노우 플레이크 스키마:

  • 차원 테이블을 추가로 정규화하여 데이터 중복 제거.
  • 데이터 저장 공간 절약 가능.
profile
부지런한 개발자가 되고싶은

0개의 댓글

관련 채용 정보