(1) 빅데이터란?
- 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합
(2) 빅데이터의 특징
- 더그래니의 정의 (3V)
- 빅데이터는 데이터의 양 (volume), 데이터의 유형과 소스의 다양성 (Variety), 데이터의 수집과 처리측면에서의 속도 (Velocity) 가 급격히 증가하면서 나타나는 현상
- 새로운 특징 (4V)
- value (가치), veracity (정확성), visualization (시각화), variability (가변성)
(3) 빅데이터의 출현 배경
- <1> 데이터의 양적 증가
- <2> 산업계의 변화
- 양질 전환의 법칙 -> 양적인 변화가 축적되면 질적인 변화도 이루어짐.
- <3> 학계의 변화
- <4> 관련 기술의 발전
- 클라우드 컴퓨팅 - 빅데이터의 처리 비용을 획기적으로 낮춤
(4) 빅데이터의 기능
- 빅데이터는~
- <1> 산업혁명의 석탄. 철 - 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 예상
- <2> 21세기 원유 - 필요한 정보를 제공해 산업 전반의 생산성 향상 시킴
- <3> 렌즈
- <4> 플랫폼 - 공동 활용의 목적으로 구축된 구조물
(5) 빅데이터가 만들어 내는 변화
- <1> 사전처리 -> 사후 처리
- <2> 질 -> 양
- <3> 표본조사 -> 전수 조사
- <4> 인과관계 -> 상관관계
(6) 미래의 빅데이터 활용에 필요한 3요소
- <1> 데이터 - 모든 것의 데이터화
- <2> 기술 - 진화하는 알고리즘, 인공지능
- <3> 인력 - 데이터 사이언티스트, 알고리즈미스트
- 알고리즈미스트 - 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 이들이 만들어 낸 알고리즘을 해석하여 피해를 입은 사람을 구제하는 전문가
(7) 7가지 빅데이터 활용 기본 테크닉
- (1) 연관규칙 학습 (장바구니 분석) -> 어떤 변인 간에 주목할 만한 상관 관계가 있는지를 찾아내는 방법
- (2) 유형 분석 -> 새로운 사건이 속할 범주를 찾아내는 방법
- '이 사용자가 어떤 특성을 가진 집단에 속하는가?'
- cf ) 분류 - 지도학습, 군집 - 비지도학습
- (3) 유전 알고리즘 (효율, 최적화)-> 최적화가 필요한 문제의 해결책을 자연선택. 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법
- (4) 기계학습 = 머신러닝 -> 컴퓨터가 데이터로부터 규칙을 찾고 이러한 규칙을 활용해 '예측'하는 데 초점을 둔 방법
- (5) 회귀분석 -> 독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
- ex) '상품가격은 매출에 어떤 영향을 미치는가?'
- (6) 감정분석 -> 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법 / 비정형 데이터 마이닝의 대표적인 기법 중 하나
- ex) 호텔에서 고객의 후기를 분석하여 고객의 니즈를 찾아낸다.
- (7) 소셜 네트워크 분석 (SNA ; Social Network Analysis)
- 사회 관계망 분석, SNS 같은 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어, 기업의 마케팅이나 범죄 수사에서 공범을 찾는 등 다양한 분야에서 활용 가능
- 오피니언 리더 (영향력 있는 사람)을 찾아낼 수 있음, 고객간 소셜 관계 파악 가능
(8) 빅데이터의 위기 요인과 통제 방안
- <1> 사생활 침해 (구글의 사용자 행동 패턴 예측) -> 동의에서 책임으로 (개인정보 사용자의 책임)
- <2> 책임 원칙 훼손 (분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아짐 / 범죄 발생 이전에 체포)-> 결과 기반 책임 원칙 고수 (행동 결과를 보고 처벌)
- <3> 데이터 오용 -> 알고리즘 접근 허용 (알고리즈미스트가 부상, 객관적 인증방안 도입
(9) 개인정보 비식별 기술
- <1> 데이터 마스킹 : 기존 형식을 유지 한 채 식별할 수 없는 임의의 값(혹은 기호)으로 대체한다.
- <2> 가명 처리 : 데이터의 값을 다른 값 (식별할 수 없는 값)으로 변경한다.
- <3> 총계 처리 : 각각의 데이터 값이 아닌 전체 데이터에 대한 총합 또는 평균 으로 데이터를 보여준다.
- <4> 데이터 범주화 (두리뭉실) : 데이터의 값을 범주화하여 특정값이 아닌 범위를 제공한다.
(10) 데이터 사이언스
- 데이터로부터 의미있는 정보를 추출해내는 학문, 다양한 데이터의 데이터를 대상으로 한다.
(11) 데이터 사이언티스트에게 요구되는 역량
- 하드 스킬 : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
- 소프트 스킬 : 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판), 설득력 있는 전달 (스토리텔링, 비주얼라이제이션), 다분야 간 협력 (커뮤니케이션) / 강력한 호기심이 핵심적 but 필수요소 x
- 머신러닝, 모델링, dadta 기술력
- 가트너가 제시한 데이터 사이언티스트 요구 역량
- (1) 데이터 관리 : 데이터에 대한 이해
- (2) 분석 모델링 : 분석론에 대한 지식
- (3) 비지니스 분석 : 비지니스 요서에 초점
- (4) 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
(12) 데이터화의 대표적인 예 - 사물 인터넷