[ADsP 데이터분석 준전문가] Day 1

justwriteit.·2023년 2월 1일

ADsP.log

목록 보기

1/6

이번 2월 한달간 ADsP 데이터분석 준전문가 시험을 준비하게 되었다. 사실 별 생각은 없었으나, 위키북스에서 하는 이벤트(?)를 인스타 통해서 알게 되었고, 스터디에 참여하기로 했다. 사용하는 교재는 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 이다.

신청한 시험일자는 2/26이고, 스터디 플랜은 25일간(일요일빼고) 진행된다. 잘 따르면 단기간 자격증을 딸 수 있을것 같아 좋은 기회인듯 하다.

그럼 오늘은 첫째날. 스터디 플랜에 따르면 p1~24를 학습하면 된다.
여기에 모든 스터디 기록을 하지는 않겠으나, 내가 기억하고 싶은 부분만 정리하려고 한다.

[과목 #1] 1장 데이터의 이해

01 데이터와 정보

1. 데이터의 정의

[1] 데이터의 정의

(1) 데이터의 정의 : 보통 연구나 조사 등의 바탕이 되는 재료 혹은 자료를 의미한다
(2) 테이터의 특성

존재적 특성 : 테이터는 있는 그대로의 객관적 사실
당위적 특성 : 데이터는 추론, 예측, 전망, 추정을 위한 근거

[2] 데이터의 유형

(1) 정성적 데이터와 정량적 데이터

정성적 데이터 : 언어, 문자 등
정량적 데이터 : 수치, 도형, 기호 등

(2) 정형 데이터와 비정형 데이터, 그리고 반정형 데이터

정형 데이터 : 정형화된 틀이 있고 연산이 가능 (.csv, .xlsx)
비정형 데이터 : 정형화된 틀이 없고 연산이 불가능 (소셜 데이터, 영상)
반정형 데이터 : 형태는 있지만 연산이 불가능 (.xml, .json)

(3) 암묵지와 형식지

암묵지(Tacit Knowledge) : 학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 들러나지 않는 상태의 지식
형식지(Explicit Knowledge) : 암묵지가 문서나 매뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식 (교과서, 데이터베이스, 신문 등)
암묵지와 형식지의 상호작용

암묵지 형식지
공통화(Socialization) 표출화(Externalization)
내면화(Internalization) 연결화 (Combination)

암묵지	형식지
공통화(Socialization)	표출화(Externalization)
내면화(Internalization)	연결화 (Combination)

2. 데이터와 정보

[1] DIKW 피라미드

(1) 데이터에서 지혜를 얻는 과정

데이터(Data) : 의미가 중요하지 않은 객관적인 사실
정보(Information) : 데이터에서 의미가 도출된 것
지식(Knowledge) : 도출된 다양한 정보를 구조화하여 유의미한 정보 분류, 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적 산물

(2) DIKW 피라미드

[2] 데이터에 관한 상식

(1) 비트와 바이트

비트(bit) : 0, 1의 두가지 값으로 신호를 나타내는 최소단위 (binary digit의 약자)
바이트(byte) : 8개의 비트로 구성된 데이터의 양을 나타내는 단위 (한글은 한글자가 2 byte크기를 갖는다)

(2) 데이터 단위

02 데이터베이스

1. 데이터베이스 개요

[1] 데이터베이스 정의

(1) 데이터베이스 용어의 연혁

1950년대 미군에서 군수물자를 관리하기 위해 수집된 자료를 data와 base(기지)의 합성어로 database라는 용어가 처음 등장했다고 한다. 1963년에 미국에서 공식적으로 사용하기 시작하였고, 우리나라는 1975년에 시작했다.

(2) 데이터베이스의 다양한 정의

우리나라의 '저작권법': 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있게 한 것
한국데이터산업진흥원 : 문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보처리 및 정보통신기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 처리한 정보의 집합체를 의미.
그외 EU 데이터베이스의 법적 보호에 관한 지침, 컴퓨터용어사전, 정보통신용어사전, 위키피디아 참고
DB System
- DB (Data-Base) : 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체
- DBMS (Data-Base Management System) : 이용자가 쉽게 데이터베이스를 구축/유지할 수 있게 하는 관리 소프트웨어

[2] 데이터베이스의 특징

(1) 데이터베이스의 일반적인 특징

통합된 데이터 : 동일한 내용의 데이터가 중복되어 있지 않다
저장된 데이터 : 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다
공용 데이터 : 여러 사용자가 공유할 수 있다
변화하는 데이터 : 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지해야 한다

(2) 데이터베이스의 다양한 측면에서의 특성

정보의 축적 및 전달 측면 : 기계 가독성, 검색 가능성, 원격 조작성
정보이용 측면 : 이용자의 정보요구에 따라 다양한 정보를 신속하게 획득 가능, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다
정보관리 측면 : 정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이하다
정보기술발전 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다
경제, 산업적 측면 : 다양한 정보를 필요에 따라 신속하게 제공, 이용할 수 있는 인프라의 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써의 의미를 가진다

2. 데이터베이스 활용

[1] 데이터베이스 활용

(1) 기업 내부의 데이터베이스

인하우스 DB : 경영 전반에 관한 모든 자료를 연계하여 일관된 체계로 구축 및 운영하는데 중점을 둠. 이후 전사자원관리시스템(ERP)로 확대.
OLTP(Online Transaction Processing) 시스템 : 영역별로 구축되던 단순 자동화 중심의 시스템
OLAP (Online Analytical Processing) 시스템 : 단순한 정보의 수집과 공유에서 탈피하여 '분석'이 중심이 되는 시스템

EAI(Enterprise Application Integration) : 모든 서비스를 중앙에서 관리하여 연결 루트가 간소화되는 기업 애플리케이션 통합
KMS(Knowledge Management System) : 지식경영시스템, 기업이 보유할 수 있는 모든 지식을 통합해서 문제 해결 능력을 향상시키는 시스템
SCM(Supply Chain Management) : 공급망 관리, 원자재에서부터 기업을 거쳐 고객에게 도달할 때까지 유통단계를 최적화해서 고객에서 제공
ERP(Enterprise Resource Planning) : 경영 자원 통합 관리, 여러 자원 및 업무가 하나로 통합된 시스템. 어느 부서에서 필요로 하는 자원이 있다고 알릴 경우 바로 그 자원에 대한 구매 및 생산이 진행 될 수 있도록 도와 업무의 효율성을 높임
CRM(Customer Relationship Management) : 고객 관계 관리, 기업 내 외부적인 분석을 통해 마케팅 측면에서 신규 고객 창출 및 기존 고객의 이탈 방지
BI(Business Intelligence) : 비즈니스 인텔리전스, 기업의 의사결정 프로세스. 기업의 경영권을 소유한 자가 올바른 의사결정을 내릴 수 있도록 기업의 데이터를 가공 및 분석 (참고: ad hoc report - 비즈니스 이슈에 답하기 위해 신속한 보고서 작성을 위한 BI 도구)
RTE(Real Time Enterprise) : 기업 업무 프로세스에서 발생하는 정보를 실시간으로 통합 및 전달해서 신속한 대응이 가능한 스피드 경영

(2) 산업 부문별 데이터베이스 발전 과정

제조부문
금융부문
유통부문

(3) '사회기반구조'로서의 데이터베이스

물류부문
지리부문
교통부문
의료부문
교육부문

[2] 데이터베이스 종류

(1) 데이터베이스의 종류

관계형 데이터베이스(RDB): 데이터를 행과 열로 이뤄진 테이블에 저장, 하나의 열은 하나의 속성을 나타내고 같은 속성의 값만 가질 수 있다
- Oracle, MySQL, MS-SQL, DB2-Infomix, MariaDB, Derby, SQLite
NoSQL : (Not only SQL, Non SQL) 관계형이 아닌 비관계형을 의미함, 비관계형 DB라는 의미를 담고 있으며 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이한다
- Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant
- Key-Value DB: Amazon Dynamo, Redis, Riak, Coherence, SimpleDB
- Colum-oriented DB: Google Bigtable, Cassandra, HBase, HyperTable
계층형 DBMS : 데이터가 부모자식 형태를 갖도록 관계를 맺는다. 데이터 중복 문제가 발생하기 쉬운 단점이 있다.
네트워크형 DBMS : 각 데이터 간의 연결을 통해 네트워크처럼 복잡한 그물 형태로 데이터를 관리한다. 계층형의 중복문제를 해결하나, 복잡한 구조로 인해 구조변경에 많은 어려움이 발생한다는 단점이 있다.
분산형 DBMS : 분산된 여러 개의 데이터베이스를 하나의 데이터베이스로 인식하고 사용할 수 있다.
객체지향 DBMS : 사용자가 정의하는 타입을 하나의 데이터유형으로 저장한다. 구조가 없는 비정형 데이터라도 사용자가 원하는 방식에 따라 표현 가능하다는 장점이 있다.

(2) SQL의 이해

Structured Query Language
DBMS에서 데이터베이스에 명령을 내리는 데이터베이스의 하부 언어
DB마다 문법이 서로 다름
한국데이터산업진흥원 SQL 교재는 기본적으로 Oracle을 기반으로 함
크게 정의언어인 DDL(Data Definition Langague)와 데이터 조작 언어인 DML(Data Manipulation Langauge)로 나눠진다.

[기본 SELECT 문법]

SELECT 질의 문법

SELECT (칼럼명) FROM (테이블명) WHERE (조건절)

SELECT 집계 함수 문법

SELECT (칼럼명) FROM (테이블명) WHERE (조건절) WHERE (조건절) GROUP BY (대상칼럼) HAVING (대상칼럼조건)

[데이터베이스 구성요소]

인스턴스 : 하나의 객체를 의미
속성 : 객체를 표현하기 위해 사용되는 값
엔터티 : 데이터의 집합, 2개 이상의 인스턴스와 1개 이상의 속성을 보유
메타데이터 : 데이터를 설명하는 데이터
인덱스 : 데이터를 저장할 때 자동적으로 지정되는 데이터의 이름

[데이터 마트(DM)와 데이터 웨어하우스(DW)]

데이터 웨어하우스는 분산된 환경에 흩어져 있는 데이터들을 공통의 형식으로 변환해 관리, 데이터 마트는 DW으로부터 추출된 작은 데이터베이스로서 특정 목표를 달성하는데 필요한 데이터를 제공한다.

[출처]

justwriteit.

my records

다음 포스트