빅데이터란❓
빅데이터(Big data) : 큰(big) 데이터
단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션, 관리 툴(tool)로는 다루기 어려운 데이터세트의 집합(collection of data sets)
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집ㆍ발굴ㆍ분석을 지원하도록 고안된 차세대 기술 및 아키텍처
기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위 의 정의
Volume (양) : 데이터의 규모 측면
Variety (다양성) : 데이터의 유형과 소스 측면
Velocity (속도) : 데이터의 수집과 처리 측면
데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위 의 정의
새로운 데이터 처리, 저장, 분석 기술 및 아키텍처
클라우드 컴퓨팅 활용
인재, 조직 변화까지 포함해 빅데이터를 넓은 관점 으로 정의
Data Scientist 같은 새로운 인재 필요
데이터 중심 조직으로의 변화
빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 말한다.
고객데이터 축적(양질 전환 법칙)
빅데이터를 다루는 학문 분야의 증가
디지털화의 급진전, 저장 기술의 발전과 가격 하락
클라우드 컴퓨팅 보편화 등
맵리듀스(MapReduce):
HDFS에 저장된 파일을 분산 배치 분석을 할 수 있게 도와주는 프레임워크.
개발자는 맵리듀스 프로그래밍 모델에 맞게 애플리케이션을 구현하고, 데이터 전송, 분산 처리, 내고장성 등의 복잡한 처리는 맵리듀스 프레임워크가 자동으로 처리해준다.
개별 기업의 고객 데이터 축척 및 활용 증가, 인터넷 확산, 저장 기술의 발전과 가격 하락, 모바일 시대의 도래와 스마트 단말의 보급, 클라우드 컴퓨팅 기술 발전, SNS와 사물 네트워크(IoT) 확산 등이 맞물려 데이터 생산이 폭발적으로 증가하면서 대세는 빅데이터 시대라고 할 수 있다.
기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신을 주도한다.
사용자 로그(log) 정보에 대한 프로파일링이 이루어지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상 한다.
로그(log)❓ :로그(log)란 정보처리시스템에서 처리되는 정보들이 저장되는 기록을 말한다. 보통 파일이나 데이터베이스 형태로 기록된다.
빅데이터 시대에서는 특정 데이터의 가치를 측정하는 것이 쉽지 않다. 그 이유는 아래와 같다.
재사용, 재조합(mashup), 다목적용 데이터 개발 등이 일반화되며 특정 데이터를 언제,어디서,누가 활용할지 알 수 없다.
데이터의 창의적 조합은 기존에 풀 수 없는 문제를 해결하는데 도움을 준다.
다용도 목적으로 생산되는 데이터로 인해 가치 측정이 어렵다.
데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치 측정이 어렵다.
새로운 유형의 데이터가 어떠한 영향을 미칠지 예측하고 평가하기 힘들다.
인터넷 댓글 등 예전에는 분석 비용이 높아 분석할 수 없던 데이터를 저렴한 비용에 분석하면서 점점 그 활용도가 증가한다.
지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.
빅데이터가 미치는 영향 | ||
분 야 | 영 향 | 내 용 |
기 업 | 혁신, 경쟁력제고, 생산성향상 |
▪️ 혁신 : 소비자의 행동 분석, 시장 예측 등을 통해 비즈니스 모델을 혁신하고 신산업 발굴
▪️ 경쟁력 제고 : 원가절감, 제품 차별화, 투명성 제고 등에 활용하여 강한 경쟁력 확보 ▪️ 생산성 향상 : 기업의 운용 효율성 향상으로 산업 및 국가 전체의 생산성 향상 |
정 부 | 환경 탐색, 상황분석, 미래대응 |
▪️ 환경 탐색 : 기상, 인구이동, 통계 등을 수집해 사회 변화를 추정하고 재해 정보를 추출한다. ▪️ 상황 분석 : 수집된 데이터를 분석하여 의제 도출한다. ▪️ 미래 대응 : 도출된 의제에 대한 법제도, 미래 성장 전략, 국가 안보 등의 대응 방안 획득한다. |
개 인 | 목적에 따른 활용 | 개인은 빅데이터를 서비스하는 기업의 출현으로 비용이 지속적으로 하락하여 정치인이나 대중 가수 등이 인지도 향상에 빅데이터를 활용 한다. |
생활 전반의 스마트화 |
환경 탐색
상황 분석
미래 대응
정치인
가수
테크닉 | 내용 | 예시 |
연관규칙학습(Association rule learning) | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 |
커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석(Classification tree analysis) | 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘(Genetic algorithms) | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 ( 적자 생존 ) | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 (Machine learning) | 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀분석 (Regression analysis) | 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? ( 인과관계 ) 사용자의 만족도가 충성도에 어떤 영향을 미치는가? 이웃들과 그 규모가 집값에 어떤 영향을 미치는가? |
감정분석 (Sentiment analysis) | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 ( 트위터 형용사 분석) | 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석(Social network analysis) (사회관계망분석) |
특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 ( SNA 고객들 소셜 관계 파악 ) |
고객들 간 관계망은 어떻게 구성되어 있나? 특정인과 다른 사람이 몇 촌 정도의 관계인가? |
사생활 침해 데이터를 목적 외에 사용할 경우 발생 |
동의➡️책임 일일이 개인의 동의를 받는 것 보다 침해한 사람에게 책임을 묻는다. |
책임 원칙 훼손 예측알고리즘에 대한 희생 , 원리 회손 |
결과 기반 책임 원칙 고수 예측 자료에 의한 불이익 최소화 |
데이터 오용 정확도가 항상 맞을 수는 없다. |
알고리즘 접근 허용 혼자만하지말고 공개해서 오용을 줄인다. |
빅데이터 분석 알고리즘의 빠른 진화 속도
➡️ 데이터 양의 증가에 따라 알고리즘 정확도가 증가하는 일반적 경향
인공지능의 발달
➡️ 기존의 데이터 분석법으로 처리가 불가능할 만큼 거대한 규모의 빅데이터 처리에 필수 불가결한 기술로 부상
데이터 사이언티스트와 알고리즈미스트의 역할이 중요할 것으로 전망
➡️ 데이터 사이언티스트 : 빅데이터에 대한 지식과 분석 기술을 바탕으로 인사이트를 도출하고, 조직의 전략 방향 제시에 활용할 줄 아는 기획자
데이터 사이언티스트의 역량과 조건
➡️ 알고리즈미스트 : 비즈니스 전반에 대한 이해와 알고리즘 해석 능력을 통해 알고리즘에 의해 부당하게 피해를 입은 사람 들을 구제하는 전문직 종사자
본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한]
[데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 알립니다.