정량 데이터 : 숫자
1-1. 정형 : 정해진 형식, 구조 (RDBMS
)
1-2. 반정형 : Schema 정보를 데이터와 함께 제공, 연산 불가 (JSON, XML
)
정성 데이터 : 문자, 함축적 의미를 담은 데이터
2-1. 비정형 : 구조가 정해지지 않음, 동양상, 이미지, mp3 등
원본 Data → [데이터 수집 과정] → 재생산
지식의 피라미드
: 지혜 > 지식 > 정보 > 데이터
지식 형태
OLTP
: 현재 시점의 Data만을 DB가 관리, 복잡한 데이터 구조
: 데이터 갱신 위주
OLAP : Online Analytical Processing
: 단순한 데이터 구조, 정보 위주의 분석 처리,
OLTP에서 처리된 트랜잭션 데이터를 분석해 프로세싱
: 다차원적 데이터 접근 → 의사결정에 활용 가능한 정보 도출
: 데이터 조회 위주
: 일정 시간 동안 데이터 축적 → 의사결정을 위한 분석 작업 수행
: 자원 + 기술 + 인력
빅데이터의 가치
: 고객 세분화, 맞춤형 개인화 서비스 제공
: 알고리즘 기반 의사결정 지원
데이터 산업의 변화 과정
데이터 처리 (Task간 구분) [1970 - 1980]
: 데이터 = 업무 처리의 대상, 새로운 가치를 제공하지 않음
데이터 통합 (업무 간 구분) [1990 - 2000]
: 데이터 모델링, DBMS 등장
데이터 분석 (조직 간 구분) [2010 - ]
: Hadoop
, Spark
, 빅데이터 기술, 데이터 소비자의 역할, 데이터 리터러시 프로그램
데이터 연결 [2018 - ]
: Open API
데이터 권리
: 마이데이터, 산업이 데이터 중심으로 재편
데이터 산업 구조
Data Scientist
: 데이터의 근원을 찾고, 복잡한 대용량 데이터를 구조화, 데이터 간 연결
: 빅데이터 수집/저장/처리/분석 등 전 과정을 통합적으로 제공하는 플랫폼
필요 이유
비즈니스 요구사항 변화 대응
: 장기적/전략적 접근, Cloud Computing 등
데이터 규모 증가, 처리 복잡도 증가
: 처리할 데이터의 규모 및 내용의 증가
: 정보의 수집 및 분석의 기간 증가
: 분산 처리 환경 필수
: 데이터 수집 경로의 다양화
데이터 구조의 변화
: 비정형 데이터의 비중 증가
: 데이터 실시간 처리의 필요성 강조
: 데이터 발생 속도의 증가
데이터 분석 유연성 향상
: AI의 발전 → 다양한 방법론을 통해 텍스트, 음성 등 다양한 형태의 데이터 분석 가능
기능
: 빅데이터를 처리하는 과정에서 발생하는 부하를 기술적 요소의 결합으로 해결
구조
: Software 계층 > Platform 계층 > InfraStructure 계층
Software 계층
Platform 계층
InfraStructure 계층
처리 과정
: 데이터(생성) ▶ 수집 ▶ 저장(공유) ▶ 처리 ▶ 분석 ▶ 시각화
생성
: DB, File System 등의 '내부 데이터'
: 인터넷 기준의 '외부 데이터'
수집
: 데이터 원천을 크롤링해 데이터 검색 및 수집
: ETL(Extract, Transform, Load)
를 통해 데이터 추출/변환/적재
저장
: 정형/반정형/비정형 데이터 저장
: 병렬 DBMS, Hadoop
, NoSQL 등 활용
: 시스템 간 데이터 공유
처리
: 분산 병렬 처리
: 인메모리 방식의 실시간 처리(MapReduce
)
분석
: 특정 분야/목적의 특성에 맞는 분석 기법 선택
: 통계 분석, 데이터 마이닝, 텍스트 마이닝, 기계학습(ML)
시각화
: 정보, 실시간 자료 시각화
크롤링
: 분산 저장되어있는 문서를 수집 → 검색 대상의 색인으로 포함
로그 수집기
: 조직 내 웹 서버, 시스템의 로그 수집
센서 네트워크
: 초경량, 저전력의 많은 센서로 구성된 유/무선 네트워크
RSS Reader, OpenAPI
: 데이터 생산 및 공유에 참여
ETL 프로세스
: 다양한 원천 데이터를 취합 → 추출 → 공통된 형식으로 변환 → 적재
NoSQL
: 비관계형 DB, SQL을 사용하지 않는 DBMS
: ACID
의 유연한 적용
공유 데이터 시스템
: CAP이론
= 분산 데이터베이스 시스템은 일관성, 가용성, 분할 내성 중 2개만 충족 가능
: 기존 RDBMS 대비 높은 성능과 확장성을 위함
병렬 DB 관리 시스템
: 다수의 마이크로프로세서 탑재, 작은 단위 동작의 트랜잭션
: 여러 디스크에서 DB처리를 동시에 진행
분산 파일 시스템
: 네트워크로 공유하는 파일 시스템
: GFS(Google File System), AWS S3, HDFS
네트워크 저장 및 공유
: SAN
, NAS
분산 시스템과 병렬 시스템
: 분산된 다수의 COM을 단일 시스템처럼 사용
: 작업을 분할해 동시에 처리
분산 병렬 컴퓨팅
: 독립된 컴퓨팅 자원을 네트워크 상에 연결
: 미들웨어를 이용해 하나의 시스템으로 활용
Hadoop
: 분산처리 환경에서 대용량 데이터 처리/분석을 지원하는 OpenSource Framework
: HDFS(분산파일시스템) + HBase + MapReduce(분산 컴퓨팅 프레임워크)
Apache Spark
: 인메모리 방식의 분산형 컴퓨팅 플랫폼
: Hadoop
보다 빠른 속도가 특징
: Scala, R, Java, Python
지원
MapReduce
: 구글에서 개발, 효과적인 병렬/분산처리 지원
: 분산 병렬 데이터 처리 기술 표준
MapReduce 처리 단계
: Split ▶ Map ▶ Shuffle ▶ Reduce
: 입력 데이터 READ → 데이터 분할(Split) → 분할된 데이터 할당(Map)
→ 중간 데이터 통합 및 재분할 → 중간 데이터 셔플(Shuffle) → Reduce → 출력 데이터 생성
데이터 분석 방법 분류
데이터 분석 방법
: Classification(분류)
, Clustering(군집화)
, ML
, TextMining
, Web Mining
, Opinion Mining
, Reality Mining
, 소셜네트워크 분석, 감성 분석 등
군집화
등전이학습
: 기존 학습된 모델의 지식을 새로운 문제에 적용
: 빠르고 효율적인 학습 수행
: 적은 양의 데이터로도 좋은 결과 도출
: 지도학습 분류 모형 중 인식
특화(이미지, 텍스트)
전이학습 기반 사전 학습 모형
: 인지능력을 갖춘 Deep Learning 모형에 추가 데이터 학습
BERT
양질의 데이터 확보 = 인공지능의 학습 데이터를 위해 필수적
Annotation을 통해 학습이 가능한 데이터로 가공
Annotation?
→ 데이터 주석을 작성하는 과정, 설명을 추가한다.
인공지능 기술 동향
: ML Framework(TF, Keras
) ▶ GAN ▶ Auto-Encoder ▶ XAI(설명가능 AI) ▶ AutoML ▶ LLM
: 업무 처리를 목적으로 제3자에게 정보를 이전
: 제공하는 자의 업무
: 업무 처리 및 이익을 목적으로 정보를 제3자에게 정보를 이전
: 제공받는 자의 업무
: 비식별화, 투명성 확보, 재식별 시 조치, 민감정보 및 비밀번호 처리, 기술적/관리적 보호 조치
개인정보 보호법
: 당사자 동의 없는 개인정보 수집 및 활용, 제3자 제공 금지
: 정보 주체로부터 개인정보 제3자 제공 동의 필요
: 통계 작성, 학술 연구를 목적으로 '특정 개인을 식별 불가능한 형태'로 개인정보 제공 가능
정보통신망법
: 이용자 동의 없는 개인정보 수집 및 제3자 제공 = 처벌
신용정보 보호법
: 개인신용정보를 신용정보회사 등에 제공 시에, 서면 혹은 공인전자서명 전자문서로의 동의 필수
※ 개인식별정보
: 성명, 주소, 주민등록번호 등 개인을 식별 가능한 정보
: 개인을 식별 가능한 요소를 전부(일부) 삭제/대체
k-익명성
, l-다양성
, t-근접성
) → 사후관리: 개인정보를 일부를 삭제/대체하는 과정을 거쳐 나온 산출물
: 추가 정보 없이 특정 개인 식별 불가능