빅데이터의 정의, 출현배경, 빅데이터의 기능, 본질적인 변화를 알아보자. 또, 빅데이터의 가치와 영향을 알아보고 빅데이터를 통한 위기 요인과 통제 방안을 알고, 빅데이터의 미래를 예상해보자.
빅데이터
: 큰 데이터. 단순히 용량만 방대한 것이 아니라 복잡성
도 증가하여 기존의 데이터 처리 툴로 다루기 어려운 데이터셋.
사생활 침해
등의 문제 증가책임원칙 주의
가 훼손될 수 있음데이터의 오남용
으로 잘못된 미래 예측이 더 큰 피해를 불러옴빅데이터 시대
가 진행
되면서 부각되는 어두운 면
현재 초고속 인터넷 시대에서 모바일 광대역 네트워크 시대를 살고 있으며 사물인터넷(IOT) 시대가 도래했다. 웨어러블 시장이 활발해지고 있으며 정형/비정형 데이터
를 활용한 빅데이터를 통해 더 편리하고 빠른 의사결정을 할 수 있도록 변화할 것이다.
빅데이터
의 정의
관점
에 따른 정의관점
에 따라 3가지
로 정의3V
로 요약되는 데이터 자체
의 특성
변화에 초점을 맞춘 좁은 범위의 정의
처리
, 분석
기술적 변화까지 포함되는 중간 범위의 정의
인재
, 조직 변화
까지 포함한 넓은 관점
에서의 정의데이터 규모
에 중점저렴한 비용
으로 가치를 추출하고 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아키텍처
분석 비용
및 기술
초점을 맞춘 정의대용량 데이터
를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일.*퍼스널 빅데이터
: 사용자의 모든 행동
을 복합적
으로 축적한 데이터.
이동, 구매, 식사 같은 실생활 패턴
외에 웹이나 소셜 로그 같은 온라인 활동
포함
범주
및 효과
통찰 및 가치
창출변화와 혁신
주도출현 배경
: 빅데이터 현상
은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리 방식, 다루는 사람
과 조직 차원
에서 일어나는 변화
를 말함
출현 배경
ICT의 발전
과 빅데이터의 출현
빅데이터
에 거는 기대를 표현한 비유
과거
에서 현재
로의 변화
사전처리
->사후처리
: 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서
가능한 한 많은 데이터
를 모으고 그 데이터를 다양한 방식
으로 조합
해 숨은 정보
를 찾아냄
표본조사
->전수조사
: 데이터 수집 비용
의 감소
와 클라우드 컴퓨팅 기술
의 발전으로 데이터 처리비용이 감소. 표본을 조사하는 기존의 지식발견 방식에서 전수조사
를 통해 샘플링
이 주지 못한 패턴
이나 정보
를 발견하는 방식으로 데이터 활용방법이 변화
질
->양
: 데이터가 지속적으로 추가될 경우 양질의 정보
가 오류 정보보다 많아
전체적으로 좋은 결과
산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타남
인과관계
->상관관계
: 상관관계
를 통해 특정 현상의 발생 가능성
이 포착되고, 그에 상응하는 행동
을 하도록 추천되는 일이 점점 늘어남. 이처럼 데이터 기반의 상관관계 분석
이 주는 인사이트
가 인과관계에 의한 미래 예측
을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망
빅데이터 가치 산정
이 어려운
이유
: 여러가지 변수
로 인해 빅데이터 시대에서는 가치
를 측정하는 것이 쉽지 않음
데이터 활용방식
: 데이터 활용 방식에서는 재사용
이나 재조합
, 다목적용 데이터 개발
등이 일반화되면서 특정 데이터를 언제/어디서/누가 활용
할지 알 수 없게
됨. 따라서 가치를 산정하는 것도 어려워
짐
새로운 가치 창출
: 빅데이터 시대에는 데이터
가 기존에 없던 가치를 창출
함에 따라 그 가치를 측정하기 어려워짐
분석 기술 발전
: 현재
는 가치가 없는
데이터일지라도, 추후
에 새로운 분석 기법
이 등장한다면 거대한 가치
를 지닌 데이터가 될 수 있음
분야 | 영향 | 내용 |
---|---|---|
기업 | 혁신, 경쟁력 제고, 생산성 향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업 발굴 |
정부 | 환경 탐색, 상황분석, 미래대응 | 기상, 인구이동, 각종통계,법제데이터 등을 수집해 사회 변화를 추정하여, 관련 정보 추출 |
개인 | 목적에 따른 활용 | 빅데이터를 서비스하는 기업의 출현이 늘어나 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터 활용 |
*맥킨지가 언급한 빅데이터가 가치를 만들어 내는 다섯가지 방식
투명성 제고
로 연구개발 및 관리 효율성 제고시뮬레이션
을 통한 수요 포착
및 주요 변수 탐색으로 경쟁력 강화고객 세분화
및 맞춤 서비스 제공의사결정 보조
혹은 대체비즈니스 모델
과 제품, 서비스의 혁신기업
구글
은 사용자의 로그 데이터
를 활용한 검색엔진 개발
, 기존 페이지랭크 알고리즘을 혁신하여 검색 서비스 개선
월마트
는 고객의 구매패턴
을 분석해 상품진열
에 활용정부
정부
는 실시간 교통정보
수집, 기후 정보
, 각종 지질 활동
, 소방 서비스
등 다양한 국가 안전 확보 활동을 위해 실시간 모니터링 활용
의료
와 교육 개선
을 위해 빅데이터를 활용해 해결책 모색개인
정치인
은 선거 승리를 위해 사회관계망 분석
을 통해 유세 지역
선정, 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동가수
는 팬들의 음악 청취 기록 분석을 통해 실제 공연
에서 부를 노래 순서를 짜는데 활용*빅데이터 활용사례
구글
: 사용자 로그데이터
를 분석해서 기존의 페이지 링크 알고리즘 개선
월마트
: 고객의 구매패턴
을 분석해서 상품진열
을 변경구글, 페이스북 등
: 실시간 자동 변역 시스템
을 통해 의사소통 불편 해소아마존 등
: 전자책
관련 데이터를 분석하여 저자
에게 독서 패턴 정보 제공
빅데이터를 활용한 기본 테크닉
테크닉 | 내용 | 예시 |
---|---|---|
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지 찾는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석(군집분석) | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시키는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석(=사회관계망분석) | 특정인과 다른사람이 몇 촌 정도의 관계인가를 파악할 때 사용, 영향력있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있나? |
*예측적 분석
: 미래의 불확실한 사실을 사전에 예측
하거나 알려지지 않은 결과의 가능성
을 파악하기 위하여 사용하는 분석 방법
사생활 침해
개인정보
가 포함된 데이터를 목적 외
에 활용할 경우 사생활 침해
를 넘어 사회/경제적 위협으로 변형 가능익명화(Anonymization)
기술 발전 필요책임 원칙 훼손
정확도
가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 증가.잠재적 위협
이 아닌 명확한 결과
에 대한 책임
을 묻고 있어 이에 따른 원리를 훼손할 가능성
이 있음잠재적 위협
이 아닌 명확하게 행동한 결과
에 대해 책임을 물음.데이터 오용
일어난 일
에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것
은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없음
.잘못된 지표
를 사용하는 것도 빅데이터의 폐해가 됨.동의
에서 책임
으로
개인정보를 사용
하는 사용자
의 책임
으로 해결하는 방안 제시개인정보 제공자의 동의
->개인정보 사용자의 책임
사용자
가 책임
을 지게됨으로 사용주체
의 적극적인 보호장치를 강구결과
기반 책임 원칙
고수
통제 방안
으로 기존의 원칙을 좀 더 보강
하고 강화
할 필요가 있으며, 예측 자료
에 의한 불이익을 당할 가능성을 최소화
하는 장치를 마련하는 것이 필요잘못된 예측 알고리즘
을 통한 판단을 근거로 불이익을 줄 수 없으며
, 이에 따른 피해 최소화 장치
마련알고리즘 접근 허용
대응책
으로 알고리즘에 대한 접근권
을 제공하여 예측 알고리즘
의 부당함
을 반증
할 수 있는 방법을 명시해 공개할 것불이익
을 당한 사람들을 대변할 전문가(알고리즈미스트
)가 필요하게 됨*소비자 프라이버시 보호
3대 권고사항
기업
은 상품 개발 단계
에서부터 소비자 프라이버시 보호 방안을 적용하라.기업
은 소비자에게 공유정보 선택 옵션
을 제공하라.소비자
에게 수집된 정보 내용 공개 및 접근권을 부여하라.기본 3요소
데이터
: 모든 것
의 데이터화(Datafication)
특정 목적없이 축적된 데이터
를 통한 창의적인 분석
이 가능해져, 새로운 가치
로 부상
기술
: 진화하는 알고리즘, 인공지능
대용량
의 데이터를 빠르게
처리하기 위한 알고리즘
의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술
이 출현
인력
: 데이터 사이언티스트
, 알고리즈미스트
빅데이터를 처리하기 위한 데이터 사이언티스트
와 알고리즈미스트
의 역할을 통해 빅데이터의 다각적 분석
을 통한 인사이트 도출
이 중요해짐
*모든 것의 데이터화
: 사물인터넷(IOT)
시대에 웨어러블 단말의 발전으로 대화기록, 음악 청취 기록 등이 저장되어 사물인터넷 시대가 되어 훨씬 더 많은 정보가 생산
, 공유
됨
*데이터 사이언티스트
: 빅데이터에 대한 이론적 지식
과 숙련된 분석 기술
을 바탕으로 통찰력, 전달력, 협업 능력
을 두루 갖춘 전문인력.
빅데이터의 다각적 분석
을 통해 인사이트
를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자
*알고리즈미스트
: 데이터 사이언티스트가 한 일로 인해 부당하게 피해
가 발생하는 것을 막는 역할
.
알고리즘 코딩 해석
을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력