수업 목표
- ADsP의 전체적인 구성 이해
- 데이터, 데이터베이스에 대한 이해
- 핵심
- 데이터/데이터 분석에 대한 이해로 ADsP 합격 노리기
- 이론 베이스보다는 기출문제를 중심으로 → 시험을 위한 공부!
ADsP 개요
국가 공인 자격증 ADsP
- 데이터 이해를 바탕으로 데이터 분석 기획, 데이터 분석 능력을 갖추고 있는지 평가
- 실기 없이 필기만
- PBT
- 배점 : 문항당 2점 (총 100점) / 객관식 : 50문제
- 시험 시간 : 90분
- 합격 기준 : 60/100점
- 과락 기준 : 과목별 40% 미만
- 총점이 합격 기준을 넘어도 과락이 있으면 불합격!
구분 | 시험 과목 | 세부 과목 |
---|
1과목 | 데이터 이해 | - 데이터의 이해 |
| | - 데이터의 가치와 미래 |
| | - 가치 창조를 위한 데이터 사이언스와 전략 인사이트 |
2과목 | 데이터분석 기획 | - 데이터분석 기획의 이해 |
| | - 분석 마스터 플랜 |
3과목 | 데이터분석 | - R기초와 데이터 마트 |
| | - 통계분석 |
| | - 정형 데이터 마이닝 |
- 특징
- 우리의 바이블은 기출문제임을 잊지 말기
- 2과목에서 과락 많으니 주의: 지엽적이라 깊이가 있어 암기할 게 많다고 함
- 3과목이 어려운 부분 많음 → "통계" 파트라서
- 기초 통계 기반으로 통계분석, 데이터 마이닝까지 진행
ADsP란?
- ADsP(Advanced Data Analytics Semi-Professional, 데이터 분석 준전문가)
- 데이터를 가공하여 유의미한 정보를 도출하고 분석하는 방법론에 대해 학습
- 통계 이해가 필수인 머신러닝, 딥러닝을 이어가는 기초과정이며 데이터의 기본기를 가질 수 있음
cf. ADP(데이터 분석 전문가)
: 데이터 과학 분야의 유일한 국가공인 자격증인 ADP(Advanced Data Analytics Professional)는 ADsP 학습 내용에 데이터 시각화까지 더해 과학적인 의사결정을 지원하는 직무를 수행하는 전문가를 말합니다.
ADsP 왜 하나요?
- 현대 사회는 데이터 기반으로 모든 것이 이루어짐
- 모든 IT 직무에서 활용 가능
- 개발자 / 마케터 / 기획자 / 디자이너
- 일부 기업에서 가산점 적용
- 데이터 분석에 대한 기본적인 이해를 바탕으로 한 소통 가능
데이터의 이해
- 데이터의 이해를 바탕으로 데이터(data)와 정보(infomation)의 관계에 대해 학습
데이터(Data)란?
- 저장이나 처리에 효율적인 형태로 변환된 정보(information)
- 데이터의 시대
- 매일 초당 2억 개의 mail이 전송됨
3만명이상이 넷플릭스를 시청
2020년 기준 배달의 민족 월 평균 주문이 약 6천만건을 돌파
- 전세계의 모든 데이터의 90%는 2015년 이후 생성된 것 (IBM)
- 2025년 전세계 데이터 생성량은 175ZB에 이를 것(Seagate)
- 매순간 엄청난 데이터가 축적되고 있음 → 무한하게 증가하는 이 데이터를 ‘잘’ 저장하고 관리하는 기술이 필요
- Bit : 데이터 구성의 최소 단위로 0과 1 두가지 값을 나타냄
- 1 Byte == 8 Bit
1 Kilo == 1000 Byte
1 Mega == 1000 Kilo
1 Giga == 1000 Mega
1 Tera == 1000 Giga
1 Peta == 1000 Tera
1 Exa == 1000 Peta
1 Zeta == 1000 Exa
1 Yota == 1000 Zeta
Data
정의
- 1646년 영국 문헌에 처음 등장한 것으로 라틴어인 dare(주다), Datum(주어진 것)이란 의미로 처음 사용되었습니다. 과거에는 관념적이고 추상적인 개념이었다가 1940년대 이후 컴퓨터 시대가 도래하면서 기술적이고 사실적인 의미의 자료로 변화되고 있습니다.
- 객관적 사실이라는 존재적 특성을 가지며 추론 · 예측 · 전망 · 추정을 위한 근거로 기능하는 당위적 특성 또한 가지고 있습니다. 이러한 데이터는 축적되어 사용되며 객관적 사실로서의 개별 데이터는 중요하지 않습니다
특성
- 존재적 특성: 있는 그대로의 객관적 사실
- 당위적 특성: 추론 · 예측 · 전망 · 추정을 위한 근거
데이터의 유형
정성적 데이터와 정량적 데이터 ★
객관적 사실이라는 존재적 특성으로서의 데이터를 살펴보면 형태에 따라 언어 · 문자 등으로 표현되는 정성 데이터와 수치 · 기호 · 도형으로 표시되는 정량 데이터로 구분됩니다. 수치로 명확하게 표현되는 정량 데이터는 데이터의 양이 증가하더라도 데이터 관리 시스템 (ex.DBMS)에 저장 · 검색 · 분석하여 활용하기가 용이하나 설문조사 주관식 응답, 블로그 게시글 등과 같은 정성 데이터의 경우 형태가 명확하게 정해져 있지 않기 때문에 상대적으로 많은 비용과 기술적 투자가 필요합니다.
정형(structured) 데이터 · 비정형(unstructured) 데이터 · 반정형(semi-structured) 데이터 ★★
구분 | 형태 | 예시 |
---|
정형 데이터 | 고정된 틀 O, 연산 O | CSV(comma-separated values,엑셀, 스프레드시트, RDB |
비정형 데이터 | 고정된 틀 X, 연산 X | NoSQL, 영상, 음성 |
반정형 데이터 | 고정된 틀 O, 연산 X | HTML, JSON, XML |
암묵지(Tacit Knowledge)와 형식지(Explicit Knowledge)
- 암묵지
- 학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식
- 외부로 표출되지 않기 때문에 공유와 전달의 어려움이 있음
- 형식지
- 교과서, 매뉴얼 등과 같이 형상화된 지식
- 유형의 대상이 있기 때문에 공유할 수 있는 지식
- 문서처럼 형식화되어 있기 때문에 공유와 전달이 용이
- 기업 내 조직의 관점에서 조직원 개인의 지식을 공유하고 발전시키는 데 관심을 둔 경영학에서는 암묵지와 형식지의 상호작용을 중요하게 생각함
- 개인에게 내면화된 지식을 조직의 지식으로 공통화
- 공통화하기 위해서 기호, 숫자 등의 형태로 표출화
- 이를 다시 개인의 지식으로 연결(연결화)
- 그 바탕 위에서 새로운 경험을 부가하여 다시 내면화되는 과정
→ 상호 순환작용을 통해 조식의 지식이 증대된다고 보기 때문에 데이터는 지식 형성의 중요한 기초를 이룹니다.
데이터와 정보
DIKW Pyramid
구분 | 내용 | 예시 |
---|
데이터(Data) | 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 | - A 카페는 2,500원, B 카페는 4.000원에 소금빵 판매 |
| 존재 형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 | - A 편의점은 1,500원 B 편의점은 1,000원에 연필을 판매 |
정보(Information) | 데이터의 가공 및 처리와 데이터간 연관 관계 속에서 의미가 도출된 것(정보가 내포하는 의미는 유용하지 않을 수 있음) | - A 카페의 소금빵이 더 저렴하다 |
| 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 | - B 편의점의 연필이 더 저렴하다 |
지식(Knowledge) | 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것 | - 상대적으로 저렴한 A 카페에서 소금빵을 사야겠다 |
| 상호 연결된 정보 패턴을 이해하여 이를 토대로 추론 | - 상대적으로 저렴한 B 편의점에서 연필을 사야겠다 |
지혜(Wisdom) | 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 (예측) | - A 카페의 다른 상품들도 B 카페보다 저렴할 것이라고 판단 |
| 지식의 축적과 아이디어가 결합된 창의적 산물 | - 상대적으로 저렴한 B 편의점에서 연필을 사야겠다 |
데이터베이스
데이트베이스 정의
용어의 연혁
- 데이터베이스(database) 용어의 첫 등장
- 1950년대 미국 군대의 군비 상황을 집중적/효율적으로 관리하기 위해 수집된 자료를 일컫는 ‘데이터(Data)’와 ‘기지(Base)’의 합성어로 처음 등장
- 1963년 데이터베이스 용어의 공식적인 첫 사용
- 6월 미국 SDC(system Development Corporation)가 개최한 심포지엄에서 첫 사용
- 데이터베이스 초기 개념 : 대량의 데이터를 축적하는 기지
- GE(General Blectronic)의 c. 바크만(Charles Bachman)은 최초로 현대적 의미의 데이터베이스 관리 시스템 IDs(Integrated Data Store)를 개발하였으며 이후 다양한 데이터 모델과 데이터베이스 관리 시스템이 개발되었음
- 1965년 2차 심포지엄에서 ‘데이터베이스 시스템'이라는 용어가 등장
- 1970년대 초반 '데이터베이스(database)'라는 단일어가 일반화
- 우리나라
- 최초의 사용: 1975년 미국의 CAC(Chemical Abstracts Condensates)가 KORSTIC(한국과학기술정보 센터)을 통해 서비스되면서 데이터베이스를 처음 시작
- 1980년 KORSTIC이 해외 전문 데이터베이스를 확충하여 ‘TECHNOLINE'이라는 온라인 정보검색 서비스를 개시하며 본격 데이터베이스 서비스 시대를 맞이하게 되었음
- 1980년대 중반: 국내 데이터베이스 관련 기술의 연구 및 개발
다양한 정의
- EU 「데이터베이스의 법적 보호에 관한 지침」
- 체계적/조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
- 국내 「저작권법」
- 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 (=법률적으로 데이터베이스를 기술 기반 저작물로 인정)
- 국내 「컴퓨터 용어사전」, 「정보통신용어사전 (TTA)」
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
- 국내 「위키피디아(Wikipedia)」
- 관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(*DBMS)을 의미
데이터양과 이용이 늘어나면서 대용량의 데이터를 저장•관리•검색•이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
* DBMS : Database Management System
- 국내 「한국데이터산업진흥원」
- 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 *콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집•축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
* 콘텐츠 : 다양한 의미전달 매체에 의하여 표현된 데이터, 정보.
지식, 저작물 등의 인식 가능한 모든 자료
헷갈리기 쉬운 DB System ★
- DB(DataBase)
- 필요로 하는 정보를 체계적으로 수집/축척하여 제공하는 정보의 집합체
- DBMS(DataBase Management System)
- 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어
- system == software == program
- Oracle, MySQL, PostgreSQL, …
종류
: 계층형, 네트워크형, 관계형, NoSQL 등
- 관계형 데이터베이스(Relational Database)
- 데이터를 행과 열로 표현된 표형식으로 저장하며 데이터 간의 관계를 나타내는 테이블을 사용함 → "표" 형식으로 저장된 데이터베이스
- 관계형 데이터베이스는 SQL(Structured Query Language)을 사용하여 데이터를 조작하고 검색
- Oracle, MySQL, MariaDB, SQLite, Postgresql 등
- 비관계형 데이터베이스(NoSQL)
- "Not Only SQL" 또는 "Non-SQL"의 약자로, 관계형 데이터베이스(Relational Database)가 아닌 다른 형태의 데이터베이스 관리 시스템을 나타내는 용어
- 관계형 데이터베이스와는 다른 데이터 모델과 기술을 사용하여 데이터를 저장, 검색 및 관리
- 비정형 데이터와 대용량의 데이터 분석 및 분산 처리에 용이
- MongoDB, ElasticSearch, Redis, Dynamo 등
특징
일반적인 특징 ★
- 통합된 데이터(integrated date)
- 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
- 데이터 중복은 관리상의 복잡한 부작용을 초래
- 저장된 데이터(stored data)
- 컴퓨터 기술을 바탕으로 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
- 공용 데이터(shared data)
- 다수의 사용자가 다양한 목적으로 데이터를 이용한다는 것을 의미
- 대용량화되고 구조가 복잡한 것이 일반적
- 변화되는 데이터(changable data)
- 데이터의 삽입, 삭제, 갱신으로 변화하면서도 항상 정확한 데이터 상태를 유지
다양한 측면에서의 특징 ★
- 정보의 축적 및 전달 측면(기계)
- 기계가독성 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
- 검색가능성 : 다양한 방법으로 필요한 정보를 검색 가능
- 원격조작성 : 정보통신망을 통해 원거리에서도 온라인 이용 가능
- 정보 이용 측면(사용)
- 다양한 정보를 신속하게 획득
- 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다
- 정보 관리 측면(데이터 관리)
- 정보를 일정한 질서와 구조에 따라 정리•저장•검색•관리할 수 있도록 하여 대량의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이
- 정보기술 발전의 측면
- 정보처리, 검색• 관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다
- 경제•산업적 측면
- 다양한 정보를 필요에 따라 신속하게 제공하고 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 가진다
활용
기업 내부 데이터베이스
- 1980년대 기업 내부 DB
- OLTP(Online Transaction Processing) : 정보시스템 ★
- 데이터베이스의 데이터를 수시로 갱신하는 프로세싱
- 데이터 갱신 위주
e.g. 주문이 들어올 경우 이를 처리하고(주문입력시스템), 재고를 업데이트(재고관리시스템)하는 데 사용
- OLAP (Oaline Analytical Processing) : 분석 중심의 시스템 ★
- 데이터 조회 위주 → 모아둔 데이터에 초점
e.g. 복잡한 데이터를 분석하여 제품의 판매 추이, 구매 성향 파악 등을 프로세싱
2.2000년대 기업 DB 구축 화두
- CRM(Consumer Relationship Management, 고객관계 관리) ★
- 고객의 구매이력 데이터를 분석하여 고객에 대한 이해도를 높이고 이를 바탕으로 효과적이고 효율적인 마케팅 전략을 펼치는 것
- SCM(Supply Chain Management, 공급망관리)
- 원자재 조달부터 고객에게 도달할 때까지 유통 단계를 최적화하여 고객에게 제공하는 것이 목적
- 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 줄이기 위한 것
- 유통, 판매 및 고객 데이터가 CRM과 연동되어 CRM과 SCM은 상호 밀접한 관련을 갖는다
- 기업 내부 DB 종류 정리
- 제조: CRM(고객관계관리), BI(비즈니스 인텔리전스), ERP(경영 자원 통합관리), RTE(실시간 기업)
- BI (Business Intelligence) : 기업 의사결정 프로세스. 기업의 경영권자가 올바른 의사결정을 내릴 수 있도록 돕는 목적
- ERP (Enterprise Resource Planning) : 기업이 보유한 자원을 효율적인 활용과 분배를 위한 목적 ★
- RTE (Real Time Enterprise) : 업무 프로세스 중 발생하는 정보들에 신속한 대응을 하기 위한 목적
- 유통: SCM(공급망관리), KMS(지식경영시스템), BSC(균형성과관리)
- 금융: EAI(기업 어플리케이션 통합), EDW(데이터웨어하우스)
- EAI (Enterprise Application Intergration) : 각각의 서비스들을 하나의 중앙 시스템으로 연결 후 효율적인 서비스 연결을 위한 목적
- EDW (Enterprise Data Warehouse) : 여러 애플리케이션의 정보를 중앙 집중화하여 조직 전체에서 분석 및 사용할 수 있도록 하는 데이터베이스
산업 부문별 데이터베이스 발전 과정
- 제조 부문
- 2000년대 이전 : 부품 테이블이나 재고관리 등의 영역에서 활용
- 2000년대 이후 : 부품의 설계, 제조, 유통 전 공정을 포함하는 범위로 확대
- 2000년대 초, 기업별 고유 시스템 형태로 구축됐다가 이후 솔루션 유형으로 발전
- 클라이언트/서버 기반의 내부 정보시스템을 웹환경으로 전환
- 대기업을 중심으로 ERP에서 CRM으로 발전
- 최근 제조 부문의 ERP 시스템 도입과 DW, CRM, BI등 내부 인하우스 DB구축이 주류
- 2000년대 중반 이후, 중소기업과의 협업으로 중소기업에 투자를 확대할 필요성을 인지하고 RTE를 통한 협업적 IT화로 비중 확대
- 금융 부문
- 1989년 IMF이후, 업무 프로세스 효율화 및 통합시스템 구축으로 확산
- 2000년대 초반, EAI, ERP, e-CRM 등을 통한 정보 공유 및 통합이나 고객 정보의 전략적 활용 시작
- 2000년대 중반, DW(Data Warehouse) 적극 도입을 통한 DB 마케팅 증대 및 DW를 위한 최적의 BI 기반 시스템 구축 퍼지기 시작
- 향후 EDW 확장이 데이터베이스 시장 확대에 기여
- 유통 부문
- 2000년대 이후, IT 환경 변화에 따라 CRM과 SCM 구축 진행
- 상거래를 위한 인프라와 KMS를 위한 백업시스템 구축 진행
- RFID(전자태그)의 등장으로 유비쿼터스 시대에 접어들었음
사회기반구조로서의 DB ★
- 기본 개념
- 1990년대 정보화가 본격화되면서 데이터베이스 구축이 활발하게 추진
- 이후 무역, 통관, 물류, 조세, 국세, 조달 등 사회간접자본(SOC) 차원에서 EDI(전자문서교환) 활용이 본격화되며 부가가치통신망(VAN)을 통한 정보망이 구축되기 시작
- 지리, 교통 부문의 데이터베이스 고도화
- 의료, 교육, 행정 등 사회 각 부문으로 공공 DB의 구축 및 이용이 확대됨
- 물류 부문
- ‘실시간 차량 추적’을 위한 종합물류정보망 구축
- CVO 서비스(Commercial Vehicle Operation System, 화물운송정보)
- EDI 서비스 : 주문서, 납품서, 청구서 등 무역에 필요한 여러 서류를 표준화된 양식을 통해 컴퓨터통신망을 이용하여 거래처에 전송하는 시스템
- VAN : 부가가치통신망, 공중 전기통신사업자(예컨대 한국전기통신공사)로부터 통신회선을 차용하여 독자적인 네트워크를 형성하는 것
- CALS(Commerce At Light Speed) : 제품의 설계, 개발, 생산에서 유통, 폐기에 이르기까지 제품의 라이프사이클 전반에 관련된 데이터를 통합하고 공유, 교환할 수 있도록 한 경영통합정보시스템
- PORT-MIS : 해양수산부의 항만운영정보시스템
- KROIS : 철도청의 철도운영정보시스템
- 데이터베이스 서비스(물류정보), 부가서비스로 구성
- 지리 부문
- 지리정보유통망이 가시화 : 국토교통부의 지리정보 유통센터를 중심으로 지리정보통합 관리소 운영, 지리정보 수요자에게 정보 제공
- GIS(Geographic Information System): 지리정보시스템
- GIS 응용에 활용하는 4S 통합기술
- RS(Remote Sensing) : 원격탐사
- GPS(Global Positioning System) : 범지구위치결정시스템
- LBS(Location-Based Service) : 위치정보서비스
- SIM(Spatial Information Management) : 공간정보 관리시스템
- 교통 부문
- ITS(Intelligent Transport system) : 지능형교통시스템
- 교통정보, 기초자료 및 통계 제공 등 대국민서비스 확대
- 의료 부문
- 의료정보시스템 : 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템, 병원의 멀티미디어, 원격의료, 지식정보화
- HL7 국내 표준화 작업에 따라 전국적인 진료 정보 공유 체계 구축 계획 수립
- PACS (Picture Archiving and Communications System)
- U헬스 (Ubiquitous-Health)
- 교육 부문
- NEIS (National Education Information System) 교육행정정보시스템
- 첨단 정보통신기술(ICT)을 활용한 각종 교육정보 개발 및 보급, 정보 활용 교육,
- 대학정보화 및 교육행정정보화 위주로 사업을 추진
기출 문제 내용 정리
- 암묵지와 형식지의 상호작용: 공통화, 연결화, 내면화, 표출화
- 데이터: 저장이나 처리에 효율적인 형태로 변환된 정보
- 정성적 데이터: 언어 · 문자 등, 정량적 데이터: 수치 · 기호 · 도형 등
- DIKW 피라미드: 데이터, 정보, 지식, 지혜
- 데이터베이스의 일반적인 특징: 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터
- 고객관계관리(CRM), 경영자원통합관리(ERP)
- 사회기반구조로서의 DB