이번 2월 한달간 ADsP 데이터분석 준전문가 시험을 준비하게 되었다. 사실 별 생각은 없었으나, 위키북스에서 하는 이벤트(?)를 인스타 통해서 알게 되었고, 스터디에 참여하기로 했다. 사용하는 교재는 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 이다.
신청한 시험일자는 2/26이고, 스터디 플랜은 25일간(일요일빼고) 진행된다. 잘 따르면 단기간 자격증을 딸 수 있을것 같아 좋은 기회인듯 하다.
그럼 오늘은 첫째날. 스터디 플랜에 따르면 p1~24를 학습하면 된다.
여기에 모든 스터디 기록을 하지는 않겠으나, 내가 기억하고 싶은 부분만 정리하려고 한다.
[과목 #1] 1장 데이터의 이해
01 데이터와 정보
1. 데이터의 정의
[1] 데이터의 정의
(1) 데이터의 정의 : 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료를 의미한다
(2) 테이터의 특성
- 존재적 특성 : 테이터는 있는 그대로의 객관적 사실
- 당위적 특성 : 데이터는 추론, 예측, 전망, 추정을 위한 근거
[2] 데이터의 유형
(1) 정성적 데이터와 정량적 데이터
- 정성적 데이터 : 언어, 문자 등
- 정량적 데이터 : 수치, 도형, 기호 등
(2) 정형 데이터와 비정형 데이터, 그리고 반정형 데이터
- 정형 데이터 : 정형화된 틀이 있고 연산이 가능 (.csv, .xlsx)
- 비정형 데이터 : 정형화된 틀이 없고 연산이 불가능 (소셜 데이터, 영상)
- 반정형 데이터 : 형태는 있지만 연산이 불가능 (.xml, .json)
(3) 암묵지와 형식지
-
암묵지(Tacit Knowledge) : 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 들러나지 않는 상태의 지식
-
형식지(Explicit Knowledge) : 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식 (교과서, 데이터베이스, 신문 등)
-
암묵지와 형식지의 상호작용
암묵지 | 형식지 |
---|
공통화(Socialization) | 표출화(Externalization) |
내면화(Internalization) | 연결화 (Combination) |
2. 데이터와 정보
[1] DIKW 피라미드
(1) 데이터에서 지혜를 얻는 과정
- 데이터(Data) : 의미가 중요하지 않은 객관적인 사실
- 정보(Information) : 데이터에서 의미가 도출된 것
- 지식(Knowledge) : 도출된 다양한 정보를 구조화하여 유의미한 정보 분류, 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
- 지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물
(2) DIKW 피라미드
[2] 데이터에 관한 상식
(1) 비트와 바이트
- 비트(bit) : 0, 1의 두가지 값으로 신호를 나타내는 최소단위 (binary digit의 약자)
- 바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위 (한글은 한글자가 2 byte크기를 갖는다)
(2) 데이터 단위
02 데이터베이스
1. 데이터베이스 개요
[1] 데이터베이스 정의
(1) 데이터베이스 용어의 연혁
- 1950년대 미군에서 군수물자를 관리하기 위해 수집된 자료를 data와 base(기지)의 합성어로 database라는 용어가 처음 등장했다고 한다. 1963년에 미국에서 공식적으로 사용하기 시작하였고, 우리나라는 1975년에 시작했다.
(2) 데이터베이스의 다양한 정의
- 우리나라의 '저작권법': 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있게 한 것
- 한국데이터산업진흥원 : 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보처리 및 정보통신기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 처리한 정보의 집합체를 의미.
- 그외 EU 데이터베이스의 법적 보호에 관한 지침, 컴퓨터용어사전, 정보통신용어사전, 위키피디아 참고
- DB System
- DB (Data-Base) : 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체
- DBMS (Data-Base Management System) : 이용자가 쉽게 데이터베이스를 구축/유지할 수 있게 하는 관리 소프트웨어
[2] 데이터베이스의 특징
(1) 데이터베이스의 일반적인 특징
- 통합된 데이터 : 동일한 내용의 데이터가 중복되어 있지 않다
- 저장된 데이터 : 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다
- 공용 데이터 : 여러 사용자가 공유할 수 있다
- 변화하는 데이터 : 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지해야 한다
(2) 데이터베이스의 다양한 측면에서의 특성
- 정보의 축적 및 전달 측면 : 기계 가독성, 검색 가능성, 원격 조작성
- 정보이용 측면 : 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득 가능, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다
- 정보관리 측면 : 정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다
- 정보기술발전 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다
- 경제, 산업적 측면 : 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다
2. 데이터베이스 활용
[1] 데이터베이스 활용
(1) 기업 내부의 데이터베이스
- 인하우스 DB : 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는데 중점을 둠. 이후 전사자원관리시스템(ERP)로 확대.
- OLTP(Online Transaction Processing) 시스템 : 영역별로 구축되던 단순 자동화 중심의 시스템
- OLAP (Online Analytical Processing) 시스템 : 단순한 정보의 수집과 공유에서 탈피하여 '분석'이 중심이 되는 시스템
-
EAI(Enterprise Application Integration) : 모든 서비스를 중앙에서 관리하여 연결 루트가 간소화되는 기업 애플리케이션 통합
-
KMS(Knowledge Management System) : 지식경영시스템, 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 시스템
-
SCM(Supply Chain Management) : 공급망 관리, 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지 유통단계를 최적화해서 고객에서 제공
-
ERP(Enterprise Resource Planning) : 경영 자원 통합 관리, 여러 자원 및 업무가 하나로 통합된 시스템. 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행 될 수 있도록 도와 업무의 효율성을 높임
-
CRM(Customer Relationship Management) : 고객 관계 관리, 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 및 기존 고객의 이탈 방지
-
BI(Business Intelligence) : 비즈니스 인텔리전스, 기업의 의사결정 프로세스. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석 (참고: ad hoc report - 비즈니스 이슈에 답하기 위해 신속한 보고서 작성을 위한 BI 도구)
-
RTE(Real Time Enterprise) : 기업 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달해서 신속한 대응이 가능한 스피드 경영
(2) 산업 부문별 데이터베이스 발전 과정
(3) '사회기반구조'로서의 데이터베이스
[2] 데이터베이스 종류
(1) 데이터베이스의 종류
- 관계형 데이터베이스(RDB): 데이터를 행과 열로 이뤄진 테이블에 저장, 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있다
- Oracle, MySQL, MS-SQL, DB2-Infomix, MariaDB, Derby, SQLite
- NoSQL : (Not only SQL, Non SQL) 관계형이 아닌 비관계형을 의미함, 비관계형 DB라는 의미를 담고 있으며 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이한다
- Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant
- Key-Value DB: Amazon Dynamo, Redis, Riak, Coherence, SimpleDB
- Colum-oriented DB: Google Bigtable, Cassandra, HBase, HyperTable
- 계층형 DBMS : 데이터가 부모자식 형태를 갖도록 관계를 맺는다. 데이터 중복 문제가 발생하기 쉬운 단점이 있다.
- 네트워크형 DBMS : 각 데이터 간의 연결을 통해 네트워크처럼 복잡한 그물 형태로 데이터를 관리한다. 계층형의 중복문제를 해결하나, 복잡한 구조로 인해 구조변경에 많은 어려움이 발생한다는 단점이 있다.
- 분산형 DBMS : 분산된 여러 개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있다.
- 객체지향 DBMS : 사용자가 정의하는 타입을 하나의 데이터유형으로 저장한다. 구조가 없는 비정형 데이터라도 사용자가 원하는 방식에 따라 표현 가능하다는 장점이 있다.
(2) SQL의 이해
- Structured Query Language
- DBMS에서 데이터베이스에 명령을 내리는 데이터베이스의 하부 언어
- DB마다 문법이 서로 다름
- 한국데이터산업진흥원 SQL 교재는 기본적으로 Oracle을 기반으로 함
- 크게 정의언어인 DDL(Data Definition Langague)와 데이터 조작 언어인 DML(Data Manipulation Langauge)로 나눠진다.
[기본 SELECT 문법]
SELECT (칼럼명) FROM (테이블명) WHERE (조건절) WHERE (조건절) GROUP BY (대상칼럼) HAVING (대상칼럼조건)
[데이터베이스 구성요소]
- 인스턴스 : 하나의 객체를 의미
- 속성 : 객체를 표현하기 위해 사용되는 값
- 엔터티 : 데이터의 집합, 2개 이상의 인스턴스와 1개 이상의 속성을 보유
- 메타데이터 : 데이터를 설명하는 데이터
- 인덱스 : 데이터를 저장할 때 자동적으로 지정되는 데이터의 이름
[데이터 마트(DM)와 데이터 웨어하우스(DW)]
- 데이터 웨어하우스는 분산된 환경에 흩어져 있는 데이터들을 공통의 형식으로 변환해 관리, 데이터 마트는 DW으로부터 추출된 작은 데이터베이스로서 특정 목표를 달성하는데 필요한 데이터를 제공한다.
[출처]