데이터 : 추론과 근거를 이루는 사실로, 현실 세계에서 관찰하거나 측정하여 수집한 사실
특징
구분
| 구분 | 설명 | 특징 |
|---|---|---|
| 정량적 데이터 | 숫자로 구성된 데이터 | 객관적, 정형/반정형 |
| 정성적 데이터 | 문자(텍스트) 기반 데이터 | 주관적, 비정형 |
유형
| 유형 | 설명 | 특징 | 예시 |
|---|---|---|---|
| 정형 데이터 | 정해진 형식과 구조 존재 | 연산 가능 | DB 테이블 |
| 반정형 데이터 | 구조는 없지만 스키마 존재 | 태그/메타데이터 포함 | XML, JSON, HTML |
| 비정형 데이터 | 구조 없음 | 연산 어려움 | 문서, 영상, 이미지, 음성 |
+) 스키마 : 자료의 구조, 표현 방법
근원에 따른 분류
| 구분 | 설명 | 특징 |
|---|---|---|
| 가역 데이터 | 원본으로 환원 가능 | 1:1 관계, 변경 반영 가능 |
| 불가역 데이터 | 원본으로 환원 불가 | 독립적, 1:N 관계, 변경 반영 불가 |
기능
지식 창조 매커니즘
-> 총 4가지 단계가 반복됨.
지식의 피라미드
-> 지혜 - 지식- 정보 - 데이터 순서로 상위 단계.
+) 정보의 특징 : 정확성, 적시성, 적당성, 관련성
데이터베이스
- 체계적·조직적으로 정리되고 개별 접근이 가능한 데이터 집합
- 여러 사용자 요구를 처리하기 위해 일정 구조로 저장된 데이터
- 다양한 활용이 가능한 정보의 집합체
데이터베이스 관리 시스템 (DBMS = DataBase Management System)
- DB를 관리하며 응용 프로그램들이 DB를 공유, 사용할 수 있는 환경 제공 소프트웨어.
DBMS 종류
| 종류 | 설명 | 구조 |
|---|---|---|
| 관계형 DBMS | 데이터를 테이블 형태로 표현 | 행(Row) + 열(Column) |
| 객체지향 DBMS | 데이터를 객체 단위로 표현 | 객체(Object) |
| 네트워크 DBMS | 데이터 간 관계를 그래프로 표현 | 그래프 구조 |
| 계층형 DBMS | 데이터 간 관계를 트리 형태로 표현 | 트리 구조 |
DB의 특징
| 특징 | 설명 |
|---|---|
| 통합된 데이터 | 중복 최소화 |
| 저장된 데이터 | 컴퓨터 접근 가능 저장매체에 저장 |
| 공용 데이터 | 여러 사용자 공유 |
| 변환되는 데이터 | 현 시점의 상태 표현, 지속적 갱신 |
+) DB의 장단점
✅ 장점
- 데이터 중복 최소화
- 실시간 접근 가능
- 보안 강화
- 논리적·물리적 독립성 확보
- 데이터 일관성 및 무결성 유지
- 데이터 공유 용이
❌ 단점
- 구축 및 유지 비용 발생
- 백업·복구 등 관리 필요
DB 활용
OLTP (OnLine Transaction Processing) :
OLTP (OnLine Transaction Processing) : 호스트 컴퓨터와 온라인 접속된 여러 단말간 처리 형태. 하나의 DB 데이터를 수시로 갱신하는 프로세싱
사용자 요청 → DB 처리 → 결과 반환OLAP (OnLine Analytical Processing) : 정보 위주의 분석 처리. OLTP에서 처리된 트랜잭션 데이터 분석으로 판매 추이, 재무회계 분석 등을 프로세싱.
OLTP와 OLAP 비교
| 구분 | OLTP | OLAP |
|---|---|---|
| 목적 | 데이터 처리 | 데이터 분석 |
| 구조 | 복잡 | 단순 |
| 데이터 갱신 | 실시간(동적) | 주기적(정적) |
| 응답 시간 | 수초 이내 | 수초 ~ 수분 |
| 데이터 범위 | 최근 데이터 | 장기간 데이터 |
| 데이터 성격 | 정규화된 핵심 데이터 | 비정규화된 분석 데이터 |
| 데이터 크기 | GB 단위 | TB 단위 |
| 데이터 내용 | 현재 데이터 | 요약 데이터 |
| 접근 빈도 | 매우 높음 | 보통 |
| 예측 가능성 | 높음 | 낮음 |
-> OLTP (데이터 갱신 위주) / OLAP (데이터 조회 위주)
데이터 웨어 하우스 (Data Warwhouse = DW)
- 의사결정을 지원하기 위해 다양한 DB 데이터를 통합·변환·분석하는 데이터 저장소
데이터 웨어 하우스 특징
| 특징 | 설명 |
|---|---|
| 주제지향성 | 고객, 제품 등 주제 중심 |
| 통합성 | 데이터 형식 통일 |
| 시계열성 | 시간 흐름 기반 데이터 |
| 비휘발성 | 적재 후 변경 거의 없음 |
데이터 웨어 하우스 구성
| 구성 요소 | 설명 |
|---|---|
| 데이터 모델 | 주제 중심 ER(개체-관계) 모델 |
| ETL | 추출(Extract) → 변환(Transform) → DW 적재(Load) |
| ODS | 다양한 DBMS 데이터 통합 관리 |
| 메타데이터 | 데이터 모델 스키마 정보, 비즈니스 측면의 정보 제공 |
| OLAP | 다차원 분석 도구 |
| 데이터 마이닝 | 대용량 데이터 패턴 및 인사이트 도출 |
| 분석 도구 | DW 데이터 분석 수행 |
| 경영 지원 시스템 | KMS,DSS,BI 같은 경영의사 결정 지원 솔루션 |
+) KMS : 지식관리 시스템
DSS : 의사결정지원 시스템
BI : 데이터 분석으로 기업 의사결정 활용 프로세스BI : 데이터 분석으로 기업 의사결정 활용 프로세스
빅데이터 : 기존 데이터보다 너무 방대하여 기존 방법으로는 수집/저장/분석이 어려운 정형, 비정형 데이터.
작은 용량에서는 얻을 수 없던 새로운 통찰이나 가치를 추출한다.
빅데이터의 등장과 변화
빅데이터의 특징
빅데이터의 활용
빅데이터의 기능과 효과
빅데이터 가치 측정의 어려움
빅데이터의 영향
데이터 산업의 진화
데이터 산업은 데이터 처리 - 통합 - 분석 - 연결 - 권리 시대로 진화하고 있다.
데이터 산업의 구조
필요성
조직 역할
조직 구성
데이터 사이언스 역량
데이터 사이언티스트
빅데이터 플랫폼 : 빅데이터의 수집, 저장, 처리, 분석등의 전 과정을 통합적으로 제공하는 환경
빅데이터 플랫폼 등장 배경
빅데이터 플랫폼 기능
빅데이터 플랫폼 조건
빅데이터 플랫폼 구조
| 계층 | 역할 |
|---|---|
| 소프트웨어 계층 | 데이터 수집, 정제, 처리, 분석 및 애플리케이션 구성 |
| 플랫폼 계층 | 애플리케이션 실행 환경 제공, 스케줄링, 자원 관리 |
| 인프라스트럭처 계층 | 물리적 자원(서버, 스토리지, 네트워크) 제공 및 관리 |
| 모듈 | 기능 |
|---|---|
| 데이터 처리 및 분석 엔진 | 데이터 처리 및 분석, 워크플로우 구성, 데이터 표현 |
| 데이터 수집 및 정제 모듈 | 데이터 추출 → 변환 → 적재 |
| 서비스 관리 모듈 | 서비스 운영 및 관리 |
| 사용자 관리 모듈 | 인증 및 접속 관리, 사용자 서비스 관리, SLA 관리 |
| 모니터링 모듈 | 플랫폼/인프라스트럭처 서비스 사용성, 성능 모니터링 |
| 보안 모듈 | 보안 관리 |
+) SLA : 사용자별 서비스 수준 협약
| 모듈 | 기능 |
|---|---|
| 사용자 요청 파싱 모듈 | 사용자 요청 해석 |
| 작업 스케줄링 모듈 | 애플리케이션 실행 작업 스케줄링 |
| 데이터 및 자원 할당 모듈 | 초기 데이터/자원 할당, 재할당 및 스케일링 |
| 프로파일링 모듈 | 시스템/애플리케이션 성능 분석, 자원 재할당 지원 |
| 데이터 관리 모듈 | 사용자 데이터 관리 |
| 자원 관리 모듈 | 인프라스트럭처 자원 관리 |
| 서비스 관리 모듈 | 플랫폼 서비스 관리 |
| 사용자 관리 모듈 | 인증, 서비스 관리, SLA 관리 |
| 모니터링 모듈 | 인프라스트럭처 서비스 가용성, 성능 모니터링 |
| 보안 모듈 | 보안 관리 |
| 모듈 | 기능 |
|---|---|
| 사용자 요청 파싱 모듈 | 요청 해석 |
| 자원 배치 모듈 | 초기 자원 배치, 재배치 및 스케일링 |
| 노드 관리 모듈 | 인프라스트럭처 내 노드 관리 |
| 데이터 관리 모듈 | 인프라스트럭처 내 스토리지 관리 |
| 네트워크 관리 모듈 | 인프라스트럭처 내 네트워크 구성 및 관리 |
| 서비스 관리 모듈 | 인프라스트럭처 서비스 운영 |
| 사용자 관리 모듈 | 인증, 서비스 관리, SLA 관리 |
| 모니터링 모듈 | 가용성 및 성능 모니터링 |
| 보안 모듈 | 보안 관리 |
빅데이터 처리과정과 요소기술
| 단계 | 설명 | 주요 기술 |
|---|---|---|
| 생성 | 내부(DB), 외부(인터넷)에서 데이터 생성 | 시스템 로그, 웹 데이터 등 |
| 수집 | 데이터 검색, 수집, 변환, 적재 | 크롤링, ETL, Open API |
| 저장(공유) | 데이터 저장 및 시스템 간 공유 | NoSQL, Hadoop, 병렬 DBMS |
| 처리 | 대용량 데이터 처리 | 분산/병렬 처리, MapReduce |
| 분석 | 데이터 의미 도출 | 통계분석, 머신러닝, 마이닝 |
| 시각화 | 결과를 사용자에게 전달 | 대시보드, 그래프 |
빅데이터 수집
빅데이터 저장
NoSQL : SQL을 사용하지 않는 비관계형 DBMS
공유 데이터 시스템 : 일관성, 가용성, 분할 내성 중 최대 2개만 보유 (=CAP 이론) -> 기존 RDBMS 보다 높은 성능, 확장성
병렬 데이터베이스 관리 시스템 : 여러 마이크로프로세서로 여러 디스트에 CRUD 처리 동시 수행
분산 파일 시스템 : 네트워크 내 여러 호스트의 파일에 접근하는 파일 시스템 (예 : 아마존 s3)
네트워크 저장 시스템 : 여러 기종의 저장 장치를 하나의 데이터 서버에 연결, 총괄적으로 관리하는 시스템 (예: SAN)
빅데이터 처리
| 구분 | 설명 |
|---|---|
| 분산 시스템 | 여러 컴퓨터를 하나처럼 동작 |
| 병렬 시스템 | CPU 자원을 병렬 연결하여 처리 |
| 분산 병렬 컴퓨팅 | 네트워크로 연결된 자원을 하나처럼 사용 |
분산병렬컴퓨팅 시 고려 사항
주요 기술
| 기술 | 설명 |
|---|---|
| 하둡 (Hadoop) | 분산 처리 프레임워크 (HDFS, HBase, MapReduce) |
| 아파치 스파크 | 인메모리 기반 실시간 처리 |
| 맵리듀스 | 분산 병렬 처리 모델 |
| 단계 | 설명 |
|---|---|
| 데이터 분할 | 입력 데이터 분할 |
| 맵(Map) | 데이터 처리 및 중간 결과 생성 |
| 셔플(Shuffle) | 중간 데이터 재분배 |
| 리듀스(Reduce) | 결과 집계 |
| 출력 | 최종 데이터 생성 |
빅데이터 분석
| 기법 | 설명 |
|---|---|
| 분류 | 학습 데이터를 기반으로 결과 예측 |
| 군집화 | 유사한 데이터 그룹화 (비지도 학습) |
| 기계학습 | 데이터를 통한 패턴 학습 |
| 텍스트 마이닝 | 비정형 텍스트 분석 |
| 웹 마이닝 | 웹 데이터 분석 |
| 오피니언 마이닝 | 사용자 의견 분석 |
| 리얼리티 마이닝 | 행동 및 관계 분석 |
| 소셜 네트워크 분석 | 관계 구조 및 영향력 분석 |
| 감정 분석 | 긍정/부정 등 감정 판단 |
인공지능
정의 : 기계를 지능화 하려는 노력.
인공지능 ⊃ 머신러닝 ⊃ 딥러닝
딥러닝의 특징 : 깊은 구조로, 엄청난 양의 데이터를 학습 가능
기계학습의 종류
| 구분 | 개념 | 특징 | 주요 방법 |
|---|---|---|---|
| 지도학습 | 정답(레이블)이 있는 데이터를 학습하여 함수(모델) 생성 | 입력 → 출력 관계 학습 | 분류, 회귀 |
| 비지도학습 | 정답 없이 데이터 구조나 패턴 파악 | 데이터의 숨겨진 구조 발견 | 군집분석, 오토인코더, GAN |
| 준지도학습 | 일부만 정답이 있는 데이터를 함께 학습 | 적은 라벨로 성능 향상 | 지도 + 비지도 혼합 |
| 강화학습 | 보상을 최대화하는 행동을 학습 | 시행착오 기반 학습 | 강화학습 |
인공지능 데이터 학습의 진화
빅데이터와 인공지능의 관계
인공지능의 기술동향
| 기술 | 설명 |
|---|---|
| 기계학습 프레임워크 | 모델 개발을 위한 도구 (텐서플로, 케라스 등) |
| GAN | 생성자와 판별자가 경쟁하며 데이터(이미지) 생성 |
| 오토인코더 | 비지도 학습으로 데이터 라벨링 |
| 설명 가능한 AI | 결과에 대한 근거를 제공하는 AI |
| 기계학습 자동화 | 데이터 전처리부터 모델 튜닝까지 자동화 |
| 구성 요소 | 설명 |
|---|---|
| 토큰화 | 자연어를 기계가 이해할 수 있는 단위로 변환 |
| 트랜스포머 | 문맥과 단어 간 관계를 학습하는 신경망 |
| 프롬프트 | 모델에 입력되는 질문/명령 |
인공지능의 한계점과 발전방향
개인정보의 기준과 판단기준
개인정보의 이전
개인정보의 보호
| 항목 | 설명 |
|---|---|
| 비식별화 | 개인정보 포함 시 식별 불가능하도록 처리 |
| 투명성 확보 | 처리 목적, 수집 출처 등 공개 |
| 재식별 시 조치 | 재식별 발생 시 즉시 파기 또는 재비식별화 |
| 민감정보 처리 제한 | 민감정보 생성 및 활용 금지 |
| 보호조치 수행 | 기술적·관리적 보호조치 적용 |
개인정보보호법 : 당사자의 동의 없는 개인정보 수집 및 활용, 제 3자 제공 금지
정보통신망법 : 정보통신망 개발, 보급, 이용촉진 및 정보통신망 활용 정보 보호에 관한 법률
신용정보보호법 : 개인신용정보 제공시 주체의 동의 필요
해외 개인정보보호 체계
개요
비식별 정보 : 개인정보 비식별 조치 가이드라인에 따라 비식별 조치된 정보
비식별 조치 : 개인을 식별할 수 있는 요소를 전부/일부 삭제, 대체
비식별 정보 활용 : 이용 또는 3자 제공. (원칙적으로는 공개 금지)
비식별 정보 보호 : 재식별 주의, 관리적, 기술적 조치 필수
개인정보 비식별화 조치 가이드라인
배경: 정부 3.0 이후로 데이터 활용 가치 증대, 개인정보 보호 강화에 대한 사회적 요구
단계별 조치사항
| 단계 | 목적 | 주요 조치 | 세부 기준 / 핵심 키워드 |
|---|---|---|---|
| 사전 검토 | 개인정보 여부 판단 | 데이터 성격 확인 | 개인정보이면 반드시 보호조치 수행 |
| 비식별 조치 | 개인 식별 불가능하게 처리 | 식별정보 삭제 또는 대체 | 식별자 : 원칙적 삭제 속성자 : 불필요 → 삭제 / 필요 → 가명처리·총계처리 |
| 적정성 평가 | 비식별 처리 적절성 검증 | 평가단 검토 | k-익명성 (기본) l-다양성 t-근접성 |
| 사후 관리 | 재식별 방지 및 안전 관리 | 지속적 모니터링 | 재식별 가능성 점검 문제 발생 시 즉시 조치 |
가명정보의 개요
가명정보 : 가명처리의 산출물
가명처리 : 활용하려는 개인정보의 일부를 삭제, 대체하는 과정
개인정보 : 특정 개인에 대한 정보 (개인 특정 가능)
-> 정보 주체에게 동의를 받은 범위 내 활용 가능
가명정보 : 추가 정보 없이는 개인을 특정 할 수 없는 정보
-> 사전 동의 없이 통계/연구/공익 목적 활용 가능
익명정보 : 특정 개인을 알아볼 수 없게 처리한 정보
-> 제약 없이 이용 가능
-> 개인정보는 개인의 사생활 침해 같은 문제 발생을 막기 위해 기술적 조치 필요.
가명처리 절차
1. 목적 설정, 사전 준비
2. 위험성 검토 : 대상 선정 -> 위험성 검토
3. 적정성 검토
4. 안전한 관리
데이터 수집의 위기 요인과 통제 방안
사생활 침해로 위기 발생 -> 동의에서 책임으로 강화하여 통제데이터 활용의 위기 요인과 통제 방안
책임원칙 훼손으로 위기 발생 -> 결과 기반 책임 원칙 고수로 통제데이터 처리릐 위기 요인과 통제 방안
데이터 오용으로 위기 발생 -> 알고리즘 접근을 허용하여 통제