ADsP - Part 1 데이터 이해 / 2장 데이터의 가치와 미래
빅데이터의 이해
빅데이터의 정의
3V
4V
Value
Visualization
Veracity
빅데이터 정의의 범주 및 효과
데이터 변화
기술 변화
- 데이터 처리 / 저장 / 분석 기술 및 아키텍쳐
- 클라우드 컴퓨팅 활용
인재 및 조직 변화
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
결론
- 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출
- 사업방식 / 시장 / 사회 / 정부 등에서 변화와 혁신 주도
출현 배경
산업계
- 고객 데이터 축적
- 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 성장
학계
- 거대 데이터 활용, 과학 확산
- 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 발전
기술 발전
- 관련 기술의 발달
- 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
빅데이터 기능 비유
산업혁명의 석탄 및 철
- 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회 / 경제 / 문화 / 생활 전반에 혁명적 변화를 가져올 것으로 기대
21세기의 원유
- 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망
렌즈
- 데이터가 산업 발전에 영향을 미칠 것으로 기대
플랫폼
- 공동 활용의 목적으로 구축된 유무형의 구조물로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전
빅데이터 만들어 내는 본질적인 변화
사전처리 -> 사후처리
- 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
표본 조사 -> 전수 조사
- 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용 감소
- 표본을 조사하는 기존의 지식발견 방식에서 전수 조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화
질 -> 양
- 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정저인 영향을 미친다는 추론에 바탕을 둠
인과관계 -> 상관관계
- 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추전되는 일이 점점 늘어나고 있다
- 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 압도해 가는 시대가 도래하게 될 것으로 전망
빅데이터의 가치와 영향
빅데이터 가치 산정이 어려운 이유
데이터 활용 방식
- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제 / 어디서 / 누가 활용할지 알 수 없게 됨
새로운 가치 창출
- 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려움
분석 기술 발전
- 현재는 가치가 없는 데이터일지라도, 추후에 새로운 새로운 분석 기법이 등장하여 새로운 가치를 창출할 수 있음
빅데이터의 영향
기업
- 혁신 / 경쟁력 제고 / 생산성 향상
- 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴
정부
- 환경 탐색 / 상황 분석 / 미래 대응
- 기상, 인구 이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하여, 관련 정보를 추출
개인
- 목적에 따른 활용
- 개인도 인지도 향상에 빅데이터를 활용
비즈니스 모델
빅데이터 활용 기본 테크닉
연관 규칙 학습
- 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
유형 분석
- 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
유전자 알고리즘
- 최적화가 필요한 문제의 해결책을 자연 선택
- 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
기계학습
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
회귀분석
- 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용
감정분석
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감성을 분석
소셜 네트워크 분석
- 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용
위기 요인과 통제 방안
빅데이터 시대의 위기 요인
사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 할용할 경우 사생활 침해를 넘어 사회 / 경제적 위협으로 변형될 수 있음
책임 원칙 훼손
- 분석대상이 되는 사람은 예측 알고리즘의 희생양이 될 수 있음
- 잠재적 위협이 아닌 명확한 결과에 대한 책음을 묻는 원리를 훼손할 가능성이 있음
데이터 오용
- 미래를 예측하는 것이 항상 맞을 수는 없음
- 잘못된 지표를 사용하는 것
위기 요인에 따른 통제 방안
동의에서 책임으로
- 개인정보를 사용하는 사용자의 책임으로 해결하는 방안을 제시
결과 기반 책임 원칙 고수
- 기존 원칙을 좀 더 보강 및 강화
- 예측 자료에 의한 불이익을 당할 가능성을 최소하하는 장치를 마련
알고리즘 접근 허용
- 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시
미래의 빅데이터
빅데이터 활용 3요소
데이터
- 모든 것을 데이터화
- 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상
기술
- 진화하는 알고리즘 / 인공지능
- 대용량의 데이터를 빠르게 처리하는 알고리즘의 진화
- 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술 출현
인력
- 데이터 사이언티스트, 알고리즘미스트
- 다각적 분석을 통한 인사이트 도출해주는 인력이 중요해짐