1주차

Suhyeon Lee·2024년 10월 2일
0

수업 목표

  1. ADsP의 전체적인 구성 이해
  2. 데이터, 데이터베이스에 대한 이해
  • 핵심
    • 데이터/데이터 분석에 대한 이해로 ADsP 합격 노리기
    • 이론 베이스보다는 기출문제를 중심으로시험을 위한 공부!

ADsP 개요

국가 공인 자격증 ADsP

  • 데이터 이해를 바탕으로 데이터 분석 기획, 데이터 분석 능력을 갖추고 있는지 평가
  • 실기 없이 필기만
  • PBT
  • 배점 : 문항당 2점 (총 100점) / 객관식 : 50문제
  • 시험 시간 : 90분
  • 합격 기준 : 60/100점
  • 과락 기준 : 과목별 40% 미만
    • 총점이 합격 기준을 넘어도 과락이 있으면 불합격!
구분시험 과목세부 과목
1과목데이터 이해- 데이터의 이해
- 데이터의 가치와 미래
- 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2과목데이터분석 기획- 데이터분석 기획의 이해
- 분석 마스터 플랜
3과목데이터분석- R기초와 데이터 마트
- 통계분석
- 정형 데이터 마이닝
  • 특징
    • 우리의 바이블은 기출문제임을 잊지 말기
    • 2과목에서 과락 많으니 주의: 지엽적이라 깊이가 있어 암기할 게 많다고 함
    • 3과목이 어려운 부분 많음 → "통계" 파트라서
      • 기초 통계 기반으로 통계분석, 데이터 마이닝까지 진행

ADsP란?

  • ADsP(Advanced Data Analytics Semi-Professional, 데이터 분석 준전문가)
    • 데이터를 가공하여 유의미한 정보를 도출하고 분석하는 방법론에 대해 학습
    • 통계 이해가 필수인 머신러닝, 딥러닝을 이어가는 기초과정이며 데이터의 기본기를 가질 수 있음

cf. ADP(데이터 분석 전문가)
: 데이터 과학 분야의 유일한 국가공인 자격증인 ADP(Advanced Data Analytics Professional)는 ADsP 학습 내용에 데이터 시각화까지 더해 과학적인 의사결정을 지원하는 직무를 수행하는 전문가를 말합니다.

ADsP 왜 하나요?

  • 현대 사회는 데이터 기반으로 모든 것이 이루어짐
  • 모든 IT 직무에서 활용 가능
    • 개발자 / 마케터 / 기획자 / 디자이너
    • 일부 기업에서 가산점 적용
  • 데이터 분석에 대한 기본적인 이해를 바탕으로 한 소통 가능

데이터의 이해

  • 데이터의 이해를 바탕으로 데이터(data)와 정보(infomation)의 관계에 대해 학습

데이터(Data)란?

  • 저장이나 처리에 효율적인 형태로 변환된 정보(information)
  • 데이터의 시대
    • 매일 초당 2억 개의 mail이 전송됨
      3만명이상이 넷플릭스를 시청
      2020년 기준 배달의 민족 월 평균 주문이 약 6천만건을 돌파
    • 전세계의 모든 데이터의 90%는 2015년 이후 생성된 것 (IBM)
    • 2025년 전세계 데이터 생성량은 175ZB에 이를 것(Seagate)
  • 매순간 엄청난 데이터가 축적되고 있음 → 무한하게 증가하는 이 데이터를 ‘잘’ 저장하고 관리하는 기술이 필요
  • Bit : 데이터 구성의 최소 단위로 0과 1 두가지 값을 나타냄
    • 1 Byte == 8 Bit
      1 Kilo == 1000 Byte
      1 Mega == 1000 Kilo
      1 Giga == 1000 Mega
      1 Tera == 1000 Giga
      1 Peta == 1000 Tera
      1 Exa == 1000 Peta
      1 Zeta == 1000 Exa
      1 Yota == 1000 Zeta

Data

정의

  • 1646년 영국 문헌에 처음 등장한 것으로 라틴어인 dare(주다), Datum(주어진 것)이란 의미로 처음 사용되었습니다. 과거에는 관념적이고 추상적인 개념이었다가 1940년대 이후 컴퓨터 시대가 도래하면서 기술적이고 사실적인 의미의 자료로 변화되고 있습니다.
  • 객관적 사실이라는 존재적 특성을 가지며 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 당위적 특성 또한 가지고 있습니다. 이러한 데이터는 축적되어 사용되며 객관적 사실로서의 개별 데이터는 중요하지 않습니다

특성

  1. 존재적 특성: 있는 그대로의 객관적 사실
  2. 당위적 특성: 추론 · 예측 · 전망 · 추정을 위한 근거

데이터의 유형

정성적 데이터와 정량적 데이터 ★

객관적 사실이라는 존재적 특성으로서의 데이터를 살펴보면 형태에 따라 언어 · 문자 등으로 표현되는 정성 데이터와 수치 · 기호 · 도형으로 표시되는 정량 데이터로 구분됩니다. 수치로 명확하게 표현되는 정량 데이터는 데이터의 양이 증가하더라도 데이터 관리 시스템 (ex.DBMS)에 저장 · 검색 · 분석하여 활용하기가 용이하나 설문조사 주관식 응답, 블로그 게시글 등과 같은 정성 데이터의 경우 형태가 명확하게 정해져 있지 않기 때문에 상대적으로 많은 비용과 기술적 투자가 필요합니다.

정형(structured) 데이터 · 비정형(unstructured) 데이터 · 반정형(semi-structured) 데이터 ★★

구분형태예시
정형 데이터고정된 틀 O, 연산 OCSV(comma-separated values,엑셀, 스프레드시트, RDB
비정형 데이터고정된 틀 X, 연산 XNoSQL, 영상, 음성
반정형 데이터고정된 틀 O, 연산 XHTML, JSON, XML

암묵지(Tacit Knowledge)와 형식지(Explicit Knowledge)

  • 암묵지
    • 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식
    • 외부로 표출되지 않기 때문에 공유와 전달의 어려움이 있음
  • 형식지
    • 교과서, 매뉴얼 등과 같이 형상화된 지식
    • 유형의 대상이 있기 때문에 공유할 수 있는 지식
    • 문서처럼 형식화되어 있기 때문에 공유와 전달이 용이
  • 기업 내 조직의 관점에서 조직원 개인의 지식을 공유하고 발전시키는 데 관심을 둔 경영학에서는 암묵지와 형식지의 상호작용을 중요하게 생각함
    • 개인에게 내면화된 지식을 조직의 지식으로 공통화
    • 공통화하기 위해서 기호, 숫자 등의 형태로 표출화
    • 이를 다시 개인의 지식으로 연결(연결화)
    • 그 바탕 위에서 새로운 경험을 부가하여 다시 내면화되는 과정
      → 상호 순환작용을 통해 조식의 지식이 증대된다고 보기 때문에 데이터는 지식 형성의 중요한 기초를 이룹니다.

데이터와 정보

DIKW Pyramid

구분내용예시
데이터(Data)개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실- A 카페는 2,500원, B 카페는 4.000원에 소금빵 판매
존재 형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호- A 편의점은 1,500원 B 편의점은 1,000원에 연필을 판매
정보(Information)데이터의 가공 및 처리와 데이터간 연관 관계 속에서 의미가 도출된 것(정보가 내포하는 의미는 유용하지 않을 수 있음)- A 카페의 소금빵이 더 저렴하다
데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터- B 편의점의 연필이 더 저렴하다
지식(Knowledge)데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것- 상대적으로 저렴한 A 카페에서 소금빵을 사야겠다
상호 연결된 정보 패턴을 이해하여 이를 토대로 추론- 상대적으로 저렴한 B 편의점에서 연필을 사야겠다
지혜(Wisdom)근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 (예측)- A 카페의 다른 상품들도 B 카페보다 저렴할 것이라고 판단
지식의 축적과 아이디어가 결합된 창의적 산물- 상대적으로 저렴한 B 편의점에서 연필을 사야겠다

데이터베이스

  • 데이터베이스의 개요와 특징

데이트베이스 정의

용어의 연혁

  • 데이터베이스(database) 용어의 첫 등장
    • 1950년대 미국 군대의 군비 상황을 집중적/효율적으로 관리하기 위해 수집된 자료를 일컫는 ‘데이터(Data)’와 ‘기지(Base)’의 합성어로 처음 등장
  • 1963년 데이터베이스 용어의 공식적인 첫 사용
    • 6월 미국 SDC(system Development Corporation)가 개최한 심포지엄에서 첫 사용
    • 데이터베이스 초기 개념 : 대량의 데이터를 축적하는 기지
    • GE(General Blectronic)의 c. 바크만(Charles Bachman)은 최초로 현대적 의미의 데이터베이스 관리 시스템 IDs(Integrated Data Store)를 개발하였으며 이후 다양한 데이터 모델과 데이터베이스 관리 시스템이 개발되었음
  • 1965년 2차 심포지엄에서 ‘데이터베이스 시스템'이라는 용어가 등장
  • 1970년대 초반 '데이터베이스(database)'라는 단일어가 일반화
  • 우리나라
    • 최초의 사용: 1975년 미국의 CAC(Chemical Abstracts Condensates)가 KORSTIC(한국과학기술정보 센터)을 통해 서비스되면서 데이터베이스를 처음 시작
    • 1980년 KORSTIC이 해외 전문 데이터베이스를 확충하여 ‘TECHNOLINE'이라는 온라인 정보검색 서비스를 개시하며 본격 데이터베이스 서비스 시대를 맞이하게 되었음
    • 1980년대 중반: 국내 데이터베이스 관련 기술의 연구 및 개발

다양한 정의

  • EU 「데이터베이스의 법적 보호에 관한 지침」
    • 체계적/조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
  • 국내 「저작권법」
    • 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 (=법률적으로 데이터베이스를 기술 기반 저작물로 인정)
  • 국내 「컴퓨터 용어사전」, 「정보통신용어사전 (TTA)」
    • 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
  • 국내 「위키피디아(Wikipedia)」
    • 관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(*DBMS)을 의미
      데이터양과 이용이 늘어나면서 대용량의 데이터를 저장•관리•검색•이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
      * DBMS : Database Management System
  • 국내 「한국데이터산업진흥원」
    • 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 *콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집•축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
      * 콘텐츠 : 다양한 의미전달 매체에 의하여 표현된 데이터, 정보.
      지식, 저작물 등의 인식 가능한 모든 자료

헷갈리기 쉬운 DB System ★

  • DB(DataBase)
    • 필요로 하는 정보를 체계적으로 수집/축척하여 제공하는 정보의 집합체
  • DBMS(DataBase Management System)
    • 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어
      • system == software == program
    • Oracle, MySQL, PostgreSQL, …

종류

: 계층형, 네트워크형, 관계형, NoSQL

  • 관계형 데이터베이스(Relational Database)
    • 데이터를 행과 열로 표현된 표형식으로 저장하며 데이터 간의 관계를 나타내는 테이블을 사용함 → "표" 형식으로 저장된 데이터베이스
    • 관계형 데이터베이스는 SQL(Structured Query Language)을 사용하여 데이터를 조작하고 검색
      • SQL: 데이터베이스를 조작하는 언어
    • Oracle, MySQL, MariaDB, SQLite, Postgresql 등
  • 비관계형 데이터베이스(NoSQL)
    • "Not Only SQL" 또는 "Non-SQL"의 약자로, 관계형 데이터베이스(Relational Database)가 아닌 다른 형태의 데이터베이스 관리 시스템을 나타내는 용어
    • 관계형 데이터베이스와는 다른 데이터 모델과 기술을 사용하여 데이터를 저장, 검색 및 관리
    • 비정형 데이터와 대용량의 데이터 분석 및 분산 처리에 용이
    • MongoDB, ElasticSearch, Redis, Dynamo 등

특징

일반적인 특징 ★

  1. 통합된 데이터(integrated date)
  • 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
  • 데이터 중복은 관리상의 복잡한 부작용을 초래
  1. 저장된 데이터(stored data)
  • 컴퓨터 기술을 바탕으로 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
  1. 공용 데이터(shared data)
  • 다수의 사용자가 다양한 목적으로 데이터를 이용한다는 것을 의미
  • 대용량화되고 구조가 복잡한 것이 일반적
  1. 변화되는 데이터(changable data)
  • 데이터의 삽입, 삭제, 갱신으로 변화하면서도 항상 정확한 데이터 상태를 유지

다양한 측면에서의 특징 ★

  1. 정보의 축적 및 전달 측면(기계)
  • 기계가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
  • 검색가능성 : 다양한 방법으로 필요한 정보를 검색 가능
  • 원격조작성 : 정보통신망을 통해 원거리에서도 온라인 이용 가능
  1. 정보 이용 측면(사용)
  • 다양한 정보를 신속하게 획득
  • 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다
  1. 정보 관리 측면(데이터 관리)
  • 정보를 일정한 질서와 구조에 따라 정리•저장•검색•관리할 수 있도록 하여 대량의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이
  1. 정보기술 발전의 측면
  • 정보처리, 검색• 관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다
  1. 경제•산업적 측면
  • 다양한 정보를 필요에 따라 신속하게 제공하고 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 가진다

활용

기업 내부 데이터베이스

  1. 1980년대 기업 내부 DB
  • OLTP(Online Transaction Processing) : 정보시스템 ★
    • 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
    • 데이터 갱신 위주
      e.g. 주문이 들어올 경우 이를 처리하고(주문입력시스템), 재고를 업데이트(재고관리시스템)하는 데 사용
  • OLAP (Oaline Analytical Processing) : 분석 중심의 시스템 ★
    • 데이터 조회 위주 → 모아둔 데이터에 초점
      e.g. 복잡한 데이터를 분석하여 제품의 판매 추이, 구매 성향 파악 등을 프로세싱

2.2000년대 기업 DB 구축 화두

  • CRM(Consumer Relationship Management, 고객관계 관리) ★
    • 고객의 구매이력 데이터를 분석하여 고객에 대한 이해도를 높이고 이를 바탕으로 효과적이고 효율적인 마케팅 전략을 펼치는 것
  • SCM(Supply Chain Management, 공급망관리)
    • 원자재 조달부터 고객에게 도달할 때까지 유통 단계를 최적화하여 고객에게 제공하는 것이 목적
    • 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 줄이기 위한 것
    • 유통, 판매 및 고객 데이터가 CRM과 연동되어 CRM과 SCM은 상호 밀접한 관련을 갖는다
  1. 기업 내부 DB 종류 정리
  • 제조: CRM(고객관계관리), BI(비즈니스 인텔리전스), ERP(경영 자원 통합관리), RTE(실시간 기업)
    • BI (Business Intelligence) : 기업 의사결정 프로세스. 기업의 경영권자가 올바른 의사결정을 내릴 수 있도록 돕는 목적
    • ERP (Enterprise Resource Planning) : 기업이 보유한 자원을 효율적인 활용과 분배를 위한 목적 ★
    • RTE (Real Time Enterprise) : 업무 프로세스 중 발생하는 정보들에 신속한 대응을 하기 위한 목적
  • 유통: SCM(공급망관리), KMS(지식경영시스템), BSC(균형성과관리)
  • 금융: EAI(기업 어플리케이션 통합), EDW(데이터웨어하우스)
    • EAI (Enterprise Application Intergration) : 각각의 서비스들을 하나의 중앙 시스템으로 연결 후 효율적인 서비스 연결을 위한 목적
    • EDW (Enterprise Data Warehouse) : 여러 애플리케이션의 정보를 중앙 집중화하여 조직 전체에서 분석 및 사용할 수 있도록 하는 데이터베이스

산업 부문별 데이터베이스 발전 과정

  1. 제조 부문
  • 2000년대 이전 : 부품 테이블이나 재고관리 등의 영역에서 활용
  • 2000년대 이후 : 부품의 설계, 제조, 유통 전 공정을 포함하는 범위로 확대
  • 2000년대 초, 기업별 고유 시스템 형태로 구축됐다가 이후 솔루션 유형으로 발전
  • 클라이언트/서버 기반의 내부 정보시스템을 웹환경으로 전환
  • 대기업을 중심으로 ERP에서 CRM으로 발전
  • 최근 제조 부문의 ERP 시스템 도입과 DW, CRM, BI등 내부 인하우스 DB구축이 주류
  • 2000년대 중반 이후, 중소기업과의 협업으로 중소기업에 투자를 확대할 필요성을 인지하고 RTE를 통한 협업적 IT화로 비중 확대
  1. 금융 부문
  • 1989년 IMF이후, 업무 프로세스 효율화 및 통합시스템 구축으로 확산
  • 2000년대 초반, EAI, ERP, e-CRM 등을 통한 정보 공유 및 통합이나 고객 정보의 전략적 활용 시작
  • 2000년대 중반, DW(Data Warehouse) 적극 도입을 통한 DB 마케팅 증대 및 DW를 위한 최적의 BI 기반 시스템 구축 퍼지기 시작
  • 향후 EDW 확장이 데이터베이스 시장 확대에 기여
  1. 유통 부문
  • 2000년대 이후, IT 환경 변화에 따라 CRM과 SCM 구축 진행
  • 상거래를 위한 인프라와 KMS를 위한 백업시스템 구축 진행
  • RFID(전자태그)의 등장으로 유비쿼터스 시대에 접어들었음

사회기반구조로서의 DB ★

  • 기본 개념
    • 1990년대 정보화가 본격화되면서 데이터베이스 구축이 활발하게 추진
    • 이후 무역, 통관, 물류, 조세, 국세, 조달 등 사회간접자본(SOC) 차원에서 EDI(전자문서교환) 활용이 본격화되며 부가가치통신망(VAN)을 통한 정보망이 구축되기 시작
    • 지리, 교통 부문의 데이터베이스 고도화
    • 의료, 교육, 행정 등 사회 각 부문으로 공공 DB의 구축 및 이용이 확대됨
  1. 물류 부문
  • ‘실시간 차량 추적’을 위한 종합물류정보망 구축
  • CVO 서비스(Commercial Vehicle Operation System, 화물운송정보)
  • EDI 서비스 : 주문서, 납품서, 청구서 등 무역에 필요한 여러 서류를 표준화된 양식을 통해 컴퓨터통신망을 이용하여 거래처에 전송하는 시스템
  • VAN : 부가가치통신망, 공중 전기통신사업자(예컨대 한국전기통신공사)로부터 통신회선을 차용하여 독자적인 네트워크를 형성하는 것
  • CALS(Commerce At Light Speed) : 제품의 설계, 개발, 생산에서 유통, 폐기에 이르기까지 제품의 라이프사이클 전반에 관련된 데이터를 통합하고 공유, 교환할 수 있도록 한 경영통합정보시스템
  • PORT-MIS : 해양수산부의 항만운영정보시스템
  • KROIS : 철도청의 철도운영정보시스템
  • 데이터베이스 서비스(물류정보), 부가서비스로 구성
  1. 지리 부문
  • 지리정보유통망이 가시화 : 국토교통부의 지리정보 유통센터를 중심으로 지리정보통합 관리소 운영, 지리정보 수요자에게 정보 제공
  • GIS(Geographic Information System): 지리정보시스템
  • GIS 응용에 활용하는 4S 통합기술
    • RS(Remote Sensing) : 원격탐사
    • GPS(Global Positioning System) : 범지구위치결정시스템
    • LBS(Location-Based Service) : 위치정보서비스
    • SIM(Spatial Information Management) : 공간정보 관리시스템
  1. 교통 부문
  • ITS(Intelligent Transport system) : 지능형교통시스템
  • 교통정보, 기초자료 및 통계 제공 등 대국민서비스 확대
  1. 의료 부문
  • 의료정보시스템 : 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템, 병원의 멀티미디어, 원격의료, 지식정보화
  • HL7 국내 표준화 작업에 따라 전국적인 진료 정보 공유 체계 구축 계획 수립
  • PACS (Picture Archiving and Communications System)
  • U헬스 (Ubiquitous-Health)
  1. 교육 부문
  • NEIS (National Education Information System) 교육행정정보시스템
  • 첨단 정보통신기술(ICT)을 활용한 각종 교육정보 개발 및 보급, 정보 활용 교육,
  • 대학정보화 및 교육행정정보화 위주로 사업을 추진

기출 문제 내용 정리

  • 암묵지와 형식지의 상호작용: 공통화, 연결화, 내면화, 표출화
  • 데이터: 저장이나 처리에 효율적인 형태로 변환된 정보
  • 정성적 데이터: 언어 · 문자 등, 정량적 데이터: 수치 · 기호 · 도형 등
  • DIKW 피라미드: 데이터, 정보, 지식, 지혜
  • 데이터베이스의 일반적인 특징: 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터
  • 고객관계관리(CRM), 경영자원통합관리(ERP)
  • 사회기반구조로서의 DB
profile
2 B R 0 2 B

0개의 댓글