데이터와 정보
데이터의 정의와 특성
1. 데이터란
- 데이터는 추론과 추정의 근거를 이루는 사실
- 데이터는 다른 객체와의 상호관계 속에서 가치를 찾는 것
2. 데이터의 특성
- 존재적 특성: 객관적 사실
- 당위적 특성: 추론 예측 전망 추정을 위한 근거
데이터의 유형
- 정성적 데이터 : 언어, 문자 (회사 매출 증가)
- 정량적 데이터 : 수치, 도형, 기호 (매출, 나이, 기호)
지식경영의 핵심 이슈
- 암묵지 : 학습 경험 통해 내재화, 자전거 타기 등, 공통화 내면화
- 형식지 : 문서나 매뉴얼 형상화, 교과서나 DB 등, 표출화 연결화
데이터와 정보의 관계
- DIKW
- 데이터 (A마트 연필 100원 B마트 연필 200원)
- 정보 (A마트가 B마트보다 연필이 저렴)
- 지식 (A마트에서 연필을 사야겠다)
- 지혜 (A마트가 다른 물품도 저렴하겠다)
데이터 베이스 정의와 특징
데이터베이스란?
- 1차 개념(정형데이터 관리)
- 체계적으로 정리되고 개별적으로 접근할 수 있는 저작물
- 2차 개념(빅데이터 출현으로 비정현 포함)
- 문자, 기호, 음성, 영상 등 체계적으로 수집 축적하여 다양한 용도 방법으로 이용 할 수 있게 정리한 정보의 집합체
데이터 베이스의 특징
- 통합된 데이터 : 데이터가 중복되어 있지 않다.
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장 매체에 저장됨
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 공동 이용
- 변화되는 데이터 : 삽입, 삭제, 갱신으로 변화하면서 항상 현재의 정확한 데이터
데이터 베이스의 활용
1980년대 기업내부 데이터베이스
- OLTP
- 호스트 컴퓨터가 데이터베이스를 엑세스하고 처리 결과를 보냄
- OLAP
- OLTP에서 처리된 데이터를 분석해 판매 추이 등 정보를 얻을 수 있게 해줌
2000년대 기업내부 데이터베이스
- CRM (고객관계관리)
- 고객 중심 자원을 극대화하고 고객 특성에 맞게 마케팅 활동 계획 평가
- SCM (공급망 관리)
- 원재료의 생산 유통 공급망 단계를 최적화해 수요자가 원하는 제품을 시간 장소에 제공
데이터의 가치와 미래
빅데이터란?
- 3V (volume, velocity, variety) 로 데이터 자체의 특성 변화에 초점
- 데이터뿐 아니라 분석 기술적 변화 (데이터 처리,저장,분석,기술, 클라우드 컴퓨팅) 까지 초점
- 인재 (DS), 조직 변화 (데이터 중심조직) 까지 포함한 넓은 관점에 초점
빅데이터 활용의 3요소 : 데이터, 기술, 인력
빅데이터의 기능
- 산업혁명의 석탄,철 (사회, 경제, 문화 생활 전반에 혁명적 변화)
- 21세기의 원유 (산업 전반의 생산성을 향상, 새로운 범주 산업)
- 렌즈 (렌즈를 통해 생물학에 미친 발전과 같이 기대 됨 ex) Ngram Viewer)
- 플랫폼 (공동 활용목적으로 구축됨 ex)페이스북, 카카오톡)
빅데이터가 만들어 내는 변화
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
빅데이터 가치 선정이 어려운 이유
- 데이터 활용방식 : 재사용, 재조합이 일반화 되며 언제 어디서 누가 활용할지 알 수 없게 되어 가치 선정 어려움
- 새로운 가치 창출 : 기존에 없던 가치를 창출하므로 가치 선정 어려움
- 분석 기술 발전 : 현재 데이터가 가치 없어도 추후에 새로운 분석 기법이 등장 할 수 있으므로
비즈니스 모델
빅데이터 활용 기본 테크닉
- 연관 규칙 학습 (커피 구매하는 사람이 탄산음료도 같이 사는가?)
- 유형 분석 (이 사용자는 어떤 특성을 갖는 집단에 속하는가?)
- 유전자 알고리즘 (진화시켜 나가는 것, 어떤 프로그렘을 어떤 시간대에 방영해야 최고 시청률?)
- 기계학습 (훈련 데이터로 학습하여 예측하는 것)
- 회귀분석 (독립변수를 조작함에 따라 종속 변수가 어떻게 변하는지)
- 감정분석 (글을 쓴 사람의 감정을 분석)
- 소셜네트워크분석 (특정인과 다른사람의 관계파악, 영향력 있는 사람 찾아낼 때)
위기 요인과 통제 방안
빅데이터 시대 위기 요인
- 사생활 침해 (개인정보 sns 침해를 통한 강도)
- 책임 원칙 훼손 (일어나지 않은 범죄를 예측하여 예측 범죄의 희생)
- 데이터 오용 (잘못된 결과를 얻을 수 있음)
위기요인 통제 방안
- 개인정보 제공자 동의 → 개인정보 사용자 책임
- 결과 기반 책임 원칙 고수
- 예측 알고리즘의 부당함을 반증할 수 있는 방법 명시해 공개할 것 주문, 알고리즈미스트 필요
가치 창조를 위한 데이터 사이언스와 전략 인사이트
데이터 사이언티스트의 역할
- Hard skill
- 빅데이터에 대한 이론적 지식 (관련 기법에 대한 이해)
- 분석 기술에 대한 숙련 (최적의 분석 설계 및 노하우)
- soft skill
- 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)
- 설득력 있는 전달 (스토리텔링, 비주얼라이제이션)
- 다분야 간 협력 (커뮤니케이션)