강의는 총 1과목(데이터의 이해) 2과목(데이터 분석 기획) 3과목(데이터 분석)으로 나누어 져있다.
각 강의는 40% 이상 점수를 획득해야지 과락으로 자격증에 떨어지지 않는다.
데이터의 이해
1~3절
1절 데이터 정보
✅ **데이터의 유형**
- 정성적 데이터
- 기상특보와 같이 언어, 문자 등으로 기술된다.
- 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요하다.
- 정량적 데이터
- 지역별 온도, 풍속, 강우량과 같이 수치로 명확하게 표현되는 데이터이다. 데이터의 양이 크게 증가하더라도 이를 관리하는 시스템에 저장, 검색, 분석하여 활용하기가 매우 용이하다.
- 도형, 기호, 숫자의 데이터
✅ **지식경영 데이터**
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용을 한다.
- 지식의 차원에 대해 가장 널리 알려진 것은 Polanyi에 의해 두 가지 차원으로 구성된 암묵지와 형식지이다.
- 암묵지
- 시행착오와 오랜 경험을 통해 개인에게 습득된 무형 지식
- 개인에게 체화된 비밀스러운 지식으로 공유하기 어렵다.
- e.g. 김장김치 담그기의 노하우
- 형식지
- 문서나 매뉴얼처럼 외부로 표출되어 여러 사람이 공유할 수 있는 지식
- e.g. 회계, 재무 관련 대차대조표에 요구되는 지식의 매뉴얼
✅ **데이터와 정보의 관계**
- 데이터를 가공 처리하여 얻을 수 있는 것 : 정보, 지식, 지혜
2절 데이터베이스의 정의와 특징
✅ **데이터베이스의 정의**
- 초기에는 텍스트, 숫자 형태의 데이터를 있는 그대로 저장하는 장치 (정형 데이터)
- 정보기술 발달 후 저장하는 데이터가 이미지, 동영상을 포함한 멀티미디어로 확대 (비정형 데이터)
- 이후, 단순한 데이터 저장에서 정보를 저장하는 지식베이스로 진화
- 단순한 저장소의 개념을 넘어 첨단 정보기술을 바탕으로 원하는 데이터를 저장 검색할 수 있는 복합체
✅ **데이터베이스 특징**
- 데이터베이스는 “통합, 저장, 공용, 변화되는 데이터”를 특징으로 한다.
- 통합된 데이터 데이터베이스에서 같은 내용의 데이터가 중복되어 있지 않다는 것을 의미
- 저장된 데이터 자기디스크나 자기테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미
- 공용 데이터 여러 사용자가 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용하는 것을 의미
- 변화되는 데이터 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미
✅ **DBMS(Data Base Management System)**
- DBMS : 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어
- 관계형 DBMS(RDBMS)
- 정형화된 테이블로 구성된 데이터 항목들의 집합체
- SQL : RDBMS의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어로 챔벌린과 보이스가 개발되었던 프로그래밍 언어
- 객체지향 DBMS(ODBMS)
- 객체들을 생성하여 계층에서 체계적으로 정리
- 하위 계층이 상위 계층으로부터 속성과 방법들을 물려받을 수 있다.
- 복잡한 데이터 구조를 표현 및 관리
- 데이터베이스 관련
- 데이터베이스 설계 절차
- 요구조건 분석 → 개념적 설계 → 논리적 설계 → 물리적 설계 → 구현
- NoSQL 저장 방식 도구
- MongoDB, HBase, Redis
3절 데이터 베이스의 활용
✅ **시대별 기업 내부 데이터베이스 솔루션**
- OLAP(On-Line Analytical Processing)
- 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
- CRM(Customer Relationship Management)
- 고객별 구매 이력 **데이터베이스를 분석하여 고객에 대한 이해를 돕고, 이를 바탕으로 각종 마케팅 전략 개발
- SCM(Supply Chain Management)
- 물류, 유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보 기술(Information Technology)을 활용, 재고를 최적화하기 위한 솔루션
- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것이다.
- 자재구매 데이터, 생산, 재고 데이터, 유통/판매 데이터, 고객 데이터로 구성된다.
✅ **분야별 기업 내부 데이터베이스 솔루션**
- ERP(Enterprise Resource Planning) - 제조부문
- 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객 서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지
- BI(Business Intelligence) - 제조부문
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
- 데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 말한다.
- 가트너는 '여러 곳에 산재하여 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경'으로 정의하였다.
- BI가 빅데이터 분석의 차이점을 표현한 키워드 : ad hoc report(하나의 특정 비즈니스 질문에 답변하도 록 설계된 BI)
- 블록체인(Block Chain) - 금융부문
- 기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식에서 벗어나 거래에 참여하는 모든 사용자에게 거래 내용을 보내주며 거래 때마다 이를 대조하는 데이터 위조 방지 기술
- 거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부이다.
- 기존 금융회사의 경우 중앙 집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용한다.
- KMS(Knowledge Management System) - 유통부문
- 조직 내의 지식을 체계적으로 관리하는 시스템을 의미
- RFID - 유통부문
- 무선주파수(RF, Radio Frequency)를 이용하여 대상을 식별할 수 있는 기술
- RF 태그에 사용 목적에 알맞은 정보를 저장하여 적용 대상에 부착한 후 판독기에 해당되는 RFID 리더를 통해 정보를 인식한다.
데이터란 무엇인지 기초부터 어디서 어떤용도로 활용되며 그 가치와 중요성을 알게 됨
데이터의 가치와 미래
1절 빅데이터의 이해
✅ **빅데이터의 정의**
- 빅데이터의 정의
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다.
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
- 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서의 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.
- 빅데이터 4V
- ROI 관점에서 보는 빅데이터이다.
- Volume, Variety, Velocity 는 '투자비용 요소'이다.
- Value는 '비즈니스 효과'에 해당한다.
✅ **빅데이터의 출현 배경**
- 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
- 학계의 거대 데이터 활용, 과학 확산
- 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다. 대표적 예시는 인간 게놈 프로젝트가 있다.
- 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 기술 발전과 관련있다.
- 클라우드 컴퓨팅 : 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술
- 소셜 미디어, 영상 등 비정형 데이터의 확산
- 데이터 처리 기술 발전
✅ **빅데이터의 기능 - 플랫폼**
- 페이스북은 SNS 서비스로 시작했지만, 2006년 F8 행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작했다.
- 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공, 처리, 저장해 두고, 이 데이터에 접근할 수 있도록 API를 공개하였다.
✅ **빅데이터가 만드는 본질적인 변화**
- 사전처리에서 사후처리 시대로 (사전처리는 표준화된 문서 포맷)
- 표본조사에서 전수조사로
- 질보다 양으로
- 인과관계에서 상관관계로
- 신속한 의사결정을 원하는 비즈니스에서는 실시간 '상관관계' 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있다.
회고
데이터란 무엇인지 전혀 알지 못했던 분야라 생소하지만 강의와 교안을 제공받아 읽고 다시 듣다보니 조금씩 이해가 가고 우리 생활속에 많은 중요도를 차지한다고 알게되었다.