데이터의 이해
데이터의 정의
- 데이터: 있는 그대로의 객관적 사실, 가공되지 않은 상태(주문수량)
- 정보: 데이터로부터 가공된 자료(베스트셀러)
데이터의 유형
1) 정성적, 정량적
- 정량적 데이터: 자료를 수치화 - 수치, 기호(온도, 풍속)
- 정성적 데이터: 자료의 특징을 풀어 설명 - 언어, 문자(기상특보, 주관식 설문 응답)
2) 정형, 반정형, 비정형
- 정형 데이터: 정보 형태가 정해짐(관계형 DB, 엑셀-스프레드시트, CSV)
- 반정형 데이터: 데이터를 설명하는 메타데이터를 포함(HTML, XML, JSON, RDF)
- 비정형 데이터: 형태가 정해지지 않음(SNS, 유튜브, 음원)
암묵지, 형식지간 상호작용
- 암묵지: 개인에게 습득되고 겉으로 드러나지 않음
- 형식지: 문서, 매뉴얼 등의 형상화된 지식
1) 공통화: 암묵지 지식을 다른 사람에게 알려줌
2) 표출화: 암묵지 지식을 매뉴얼이나 문서로 전환
3) 공통화: 교재, 매뉴얼에 새로운 지식 추가
4) 내면화: 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
-> 공표연내
DIKW 피라미드
1) 데이터(Data): 있는 그대로의 사실(A대리점 핸드폰 100만원, B대리점 핸드폰 200만원)
2) 정보(Information): Data를 통해 패턴 인식(A대리점이 핸드폰이 싸다)
3) 지식(Knowledge): 패턴을 통해 예측(A에서 핸드폰을 사면 이득을 보겠다)
4) 지혜(Wisdom): 창의적인 산물(A대리점의 다른 기기들도 B대리점보다 저렴 할 것이다.)
데이터의 단위
- KB(210) < MB(220) < GB(230) < TB(240) < PB(250) < EB(260) < ZB(270) < YB(280)(Peta<Exa<Zetta<Yotta)
-> 패지요
데이터베이스의 정의와 특징
데이터베이스의 개념
1) DB: 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마: DB의 구조와 제약조건에 관한 전반적 명세(외부스키마, 개념스키마, 내부스키마)
- 인스턴스: 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
- 메타데이터: 데이터를 설명하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
- 인덱스: 정렬, 탐색을 위한 데이터의 이름
2) DBMS: DB를 관리, 접근 환경 제공하는 SW
- 관계형 DBMS: 테이블(표)로 정리 (MySQL, MariaDB, Oracle)
- NoSQL DBMS: 비정형 데이터를 저장하고 처리(HBase, MongoDB, CouchDB, Redis, Cassandra)
3) SQL: 데이터 베이스에 접근할 수 있는 하부언어
- 정의어(DDL): CREATE, ALTER, DROP
- 조작어(DML): SELECT, INSERT, DELETE, UPDATE
- 제어어(DCL): COMMIT, ROLLBACK, GRANT, REVOKE
데이터베이스의 특징
1) 공용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용
2) 통합된 데이터: 동일한 데이터 중복되어 있지 않음
3) 저장된 데이터: 저장매체에 저장
4) 변화되는 데이터: 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지(무결성)
-> 공통저변
데이터베이스 설계 정차
1) 요구조건 분석
2) 개념적 설계: 개념적 스키마 생성
3) 논리적 설계: 개념적 ERD를 활용한 논리적 모델링
4) 물리적 설계: 저장 구조 설계
-> 개논물
데이터베이스 활용
기업 활용 데이터베이스
- OLTP: 데이터를 수시로 갱신(거래단위)
- OLAP: 다차원 데이터를 대화식으로 분석
- CRM: 고객과 관련 자료 분석, 마케팅 활용
- SCM: 공급망 연결 최적화
- ERD: 기업 경영 자원을 효율화
- RTE: 최신 정보로 빠른 의사결정 지원
- BI: 기업 보유 데이터 정리, 분석하는 리포트 중심 도구
- BA: 통계 기반 비즈니스 통찰력
- Block Chain: 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
- KMS: 기업의 모든 지식을 포함
데이터웨어하우스(Data Ware House, DW)
1) 특징
- 주제지향성: 분석목적 설정이 중요
- 데이터 통합: 일관화된 형식으로 저장
- 시계열성: 히스토리를 가진 데이터
- 비휘발성: 읽기전용 - 수시로 변하지 않음
2) 구성요소
- ETL(Extraction, Transform, Load)
- ODS(Operational Data Store): 다양한 DBMS에서 추출한 데이터를 임시 저장
데이터레이크(DateLake)
- 비정형 데이터를 저장하며 하둡과 연계하여 처리
하둡: 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션
- HDFS: 분산형 파일 저장 시스템
- MapReduce: 분산된 데이터를 병렬로 처리
데이터의 가치와 미래
빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산
빅데이터의 3V(가트너 정의)
1) Volume(규모): 데이터 양 증가(구글 번역 서비스)
2) Variety(다양성): 데이터 유형 증가
3) Velocity(속도): 데이터 생성, 처리 속도 증가
4) 그 외 요소
- Value(가치): 숨겨진 가치 발견이 중료
- Veracity(신뢰성): 고품질 데이터
- Validity(정확성): 데이터의 유효성 보장
- Volatility(휘발성): 데이터의 의미 있는 기간
빅데이터에 대한 비유
1) 산업혁명의 석탄, 철: 산업혁명에서의 석탄, 철 역할
2) 원유: 정보제공으로 생산성 향상
3) 렌즈: 현미경이 생물학 발전 영향, 산업 전반에 영향(구글 Ngram Viewer)
4) 플랫폼: 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용(페이스북)
써드파티: 원천기술을 활용한 파생상품을 만드는 회사
빅데이터가 만들어내는 변화
1) 표본조사 -> 전수조사
2) 사전처리 -> 사후처리
3) 질 -> 양
4) 인과관계 -> 상관관계
-> 전후양상
###빅데이터 가치 산정이 어려운 이유
1) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
2) 기존에 가치 업슨 데이터도 새로운 분석기법으로 **가치를 창출
빅데이터 활용을 위한 3대 요소
빅데이터의 주요 분석기법
- 회귀분석: 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
(수도권에 거리가 가까울수록 부동산 가격이 비싼가?)
- 분류분석: A와 B는 어디에 속하는 범주(고양이와 강아지의 이미지를 구분)
- 연관규칙: 여러 요소들 간의 규칙 상관관계 존재(마트에서 치킨과 맥주를 같이 사는 관계)
- 유전자 알고리즘: 최적화 필요한 문제의 해결책
(택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)
- 기계학습: 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측(넷플릭스 영화 추천 시스템)
- 감정분석: 텍스트 데이터에서 감정(긍정/부정)을 분석
- 소셜 네트워크 분석: 사람간의 관계(SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
- 텍스트 마이닝: 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견(문서요약, 키워드추출)
위기 요인과 통제 방안
1) 사생활 침해: SNS 올린 데이터가 사생활 침해
-> 제공자에게 사용자 책임으로 전환
2) 책임 원칙 훼손: 범죄 예측 프로그램으로 예측하여 체포하는 문제
-> 결과에 대해서만 책임
3) 데이터의 오용: 분석 결과가 항상 옳은 것은 아님
-> 알고리즘을 해석 가능한 알고리즈미스트 필요
알고리즈미스트: 부당하게 피해가 발생한 사람들을 구제하는 전문 인력
데이터 3법
- 가명정보의 개념 도입(통계 작성, 연구, 공익적 기록 보존 목적 하에 동의 없이 활용 가능)
1) 개인정보보호법
2) 정보통신망 이용 촉진 및 정보보호 등에 관한 법률(정보통신망법)
3) 신용정보의 이용 및 보호에 관한 법률(신용정보법)
-> 개정신
개인정보, 가명정보, 익명정보
1) 개인정보: 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능(홍길동, 33세)
2) 가명정보: 가명처리를 통해 추가정보 없이 특정 불가(홍xx, 30대 초반)
3) 익명정보: 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용(xxx, 30대)
개인정보 비식별화
1) 가명처리 (홍길동, 35세 -> 임꺽정, 30세)
2) 총계처리 (홍길동 170cm, 임꺽정 180cm -> 평균 키 175cm)
3) 데이터 삭제 (주민등록번호 901111-1111111 -> 90년대 생, 남자)
4) 데이터 범주화 (홍길동, 35세 -> 홍길동, 30~40세)
5) 데이터 마스킹 (홍길동, 35세 -> 홍xx, 35세)
프라이버시 보호 모델
1) k-익명성: 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
2) l-다양성: 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
3) t-근접성: 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤
데이터 산업의 발전
- 처리 -> 통합 -> 분석 -> 연결 -> 권리
1) 처리: 프로그래밍 언어를 활용한 데이터의 처리
2) 통합: DBMS의 등장
3) 분석: 빅데이터 분석 기술의 발전
4) 연결: API를 활용한 모듈들의 연결
5) 권리: 마이데이터(MyData)를 활용한 데이터의 주권 행사
마이데이터: 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도
가치 창조를 위한 데이터 사이언스와 전략 인사이트
전략 인사이트
- 집중과 선택(많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
-> 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
-> 사업 상황들을 확인할 때는 넓은 시야
데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 정형/비정형 데이터를 막론하고 데이터를 분석(총체적 접근법)
데이터 사이언스 핵심 구성요소
1) Analytics: 이론적 지식
2) IT: 프로그래밍적 지식
3) 비즈니스 분석: 비즈니스적 능력
-> AI비
데이터 사이언티스트의 필요 역량
1) 하드 스킬(Hard Skill): 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
2) 소프트 스킬(Soft Skill): 스토리텔링, 리더십, 창의력, 분석 등
-> 하드 스킬은 이과적, 소프트 스킬은 문과적 느낌
빅데이터 가치 패러다임 변화
Digitalizaion -> Connection -> Agency
1) Digitalizaion: 아날로그 세상을 디지털화
2) Connection: 디지털화된 정보들의 연결
3) Agency: 연결을 효과적으로 관리
-> DigitalCA메라
2과목 데이터분석 기획
분석 대상과 방법
| 방법 / 대상 | Known | UnKnown |
|---|
| Known | 최적화(Optimization) | 통찰(Insight) |
| UnKnown | 솔루션(Solution) | 발견(Discovery) |
분석 기획 방안
| 과제 중심적 접근 | 장기적 마스터 플랜 |
|---|
| 목적 | 빠르게 해결 | 지속적 분석 원인 해결 |
| 1차 목표 | Speed & Test | Accuracy & Deploy |
| 과제유형 | Quick & Win | Long Term View |
| 접근방식 | Problem Solving | Problem Definition |
분석 기획시 고려사항
1) 가용 데이터: 분석의 기본이 되는 데이터 확보 및 파악
2) 적절한 유스케이스 탐색: 기존에 잘 구현되어 있는 유사 시나리오 활용
3) 장애요소에 대한 사전계획 수립: 조직의 역량으로 내제화
의사결정을 가로막는 요소
- 고정 관념, 편향된 생각
- 프레이밍 효과:ㅣ 동일 상황에도 개인의 판단, 결정이 달라짐
분석 방법론의 구성요소
분석 방법론 모델

KDD 분석 방법론

Crisp-DM 분석 방법론

SEMMA 분석 방법론

빅데이터 분석 방법론

하향식 접근 방법


상향식 접근 방법
- 문제 정의 자체가 어려울 때, 사물을 그대로 인식하는 What관점
- 주로 비지도 학습 활용
혼합 접근 방법
1) 발산 단계: 상향식 접근 방법으로서, 가능한 방안들을 도출
2) 수렴 단계: 하향식 접근 방법으로서, 도출된 방안들을 분석
디자인 싱킹
- 사용자에 공감으로 시작해서 아이디어 발산/수렴 과정을 통한 피드백으로 발전하는 과정
- 공감하기 -> 문제정의 -> 아이디어 도출 -> 프로토타입 -> 테스트
지도학습과 비지도학습

분석 과제에서 고려해야할 5가지 요소

프로젝트 관리 지식 체계 10가지 영역

분석 마스터플랜
IT 프로젝트의 우선순위 선정 기준

데이터 분석 프로젝트의 우선순위 선정 기준

분석 거버넌스 체계 구성요소

데이터 분석 수준 진단


데이터 분석 성숙도 모델

분석 지원 인프라 방안 수립

데이터 거버넌스

빅데이터 거버넌스

조직 및 인력방안 수립(DSCoE: 분석조직)

편하게 보기위해 기록
[New!!2025] (1과목, 2과목) ADsP 완벽 요약강의 - IT의 답을 터득하다, 아답터 영상 출처