📌 데이터
현실 세계에서 단순히 관찰하거나 측정해 수집한 사실이나 값
✔ 정보
의사결정에 유용하게 활용할 수 있도록 데이터를 처리한 결과물
✔ 4차혁명
인공지능, 빅데이터, 로봇, 사물인터넷(IoT), 생명공학기술, 3D프린터 등 변화를 수용하고 가능성을 최대화하는 시대
📌 빅데이터
기존의 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
✔ 빅데이터 3요소
- 크기(volume)
- 다양성(variety)
- 정형데이터 : 고정된 필드에 저장되는 일정한 형식의 데이터 ex) 엑셀
- 반정형 데이터 : 일정한 구조는 없으나 구조를 파악할 수 있는 데이터
ex) XML이나 HTML 같은 메타데이터
- 비정형 데이터 : 고정된 필드에 저장되지 않는 데이터 ex) 사진, 동영상, 위치정보 등
- 속도(velocity)
📌 데이터 분석
주어진 문제를 해결하기 위해 데이터를 다루는 과정
현상의 이해를 통해 미래를 예측하는 문제 해결 기법
인사이트를 도출하기 위해 알고리즘과 수학적 처리과정을 적용하여 해당 정보에 대한 결론을 도출하고 패턴을 찾는 과정
✔ 데이터 분석 목적
다양한 내/외부, 정형/비정형 데이터를 획득하여 새로운 통찰과 가치 창출
업무에 대한 문제해결
의사결정
✔ 데이터분석을 학습하기 위한 방법
데이터분석 기법 중심
분석 도구 중심
문제 해결 중심
✔✔✔ 데이터 분석 과정
- 문제 정의 및 계획
- 문제가 명확해야 그 문제를 해결하기 위한 데이터가 어떤 것인지를 추정할 수 있고, 어떤 분석기법을 적용해야 할지도 계획할 수 있음
- 데이터 수집
- 기존 시스템의 데이터베이스, 엑셀파일, 인터넷 등에서 필요한 자료를 수집
- 데이터 정제 및 전처리
- 수집된 데이터는 바로 분석할 수 없는 경우가 대부분
- 단위의 차이, 결측값, 오류 데이터 등의 보정 필요
- 수집된 데이터를 분석 가능한 형태로 정돈하는 과정을 데이터 정제 혹은 전처리 과정
- 데이터 탐색
- 가벼운 데이터 분석, 데이터 내용을 파악하는 단계
- 데이터 분석
- 데이터 탐색 단계에서 파악한 정보를 바탕으로 보다 심화된 분석을 수행하는 단계
- 전통적인 통계분석을 포함하여 고급 분석 기법들이 사용
- 머신러닝 기술도 적용
- 결과 보고
- 데이터의 분석과 해석이 마무리 되면 그 내용이 정리되고, 보고 되어야 함
- 결과보고 작성단계에서 중요한 기술이 데이터 시각화
- 데이터 시각화란 분석된 결과를 단순 숫자의 나열이 아니라 다양한 그래프나 그림을 통해 결과를 쉽게 이해할 수 있도록 표현하는 것
✔ 분석 소요 시간
데이터를 정제하고 전처리하는데 60%의 시간을 사용함
전체 분석 과정에서 약 80%의 시간이 분석을 위한 데이터 준비에 사용