데이터 분석 : 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정
경제적 가치 창출
-업무 생산성 향상 : 자원의 추적 관리, 자원 사용/관리의 최적화
-고객 맞춤형 마케팅 : 고객 감성/경험 분석 -> 요구 예측 -> 고객별 대응
● CRM 고객관계관리
-의사결정 능력 향상 : 정보 연계성 파악, 고객 요구 실시간 파악 -> 정확한 정보 확보 -> 가치 기반 의사결정
-신 사업 창출 : 새로운 고객 가치 창출 -> 사업 기회 확대
EX. 아마존 CRM : 온라인 서점 -> 고객 맞춤형 서비스 -> 종합 택배회사
-불확실성 해소 - 통찰력 제공
-위험 RISK 감지 회피 - 대응력 제공
-스마트 경제 도입 - 경쟁력 상승
-융합 기술 도입 - 창초력 향상
문제정의 = 필요한 지식 knowledge가 무엇인가?
데이터 수집 = 데이터 검색, 수동/자동으로 수집, raw data 확보
데이터 가공(전처리) = 데이터 필터링, 데이터 변환, 정제된 데이터 확보
데이터 저장/관리 = 데이터베이스, 데이터 웨어하우스, 데이터 마트
데이터 분석 = 통계 분석, 최적화, 예측
데이터 가시화 = 정보 시각화 visualization
데이터 공유 - 서로 다른 시스템 간의 공유
지식 knowledge 활용
: 데이터 기술을 잘 사용할 수 있도록 준비된 환경
빅데이터 수집 -> 빅데이터 저장 -> 빅데이터 처리 -> 빅데이터 관리
: 대용량 컴퓨팅 시스템을 응용하는 경우가 많음
-데이터 수집 플랫폼 -- Crawling
-데이터 저장 플랫폼 -- HDFS
-데이터 처리 플랫폼 -- Spark, Storm(원래는 분산형 컴퓨팅 프레임워크)
-데이터 관리 플랫품 -- 통계분석, 데이터 마이닝, 최적화
※과학 science & 공학 engineering 차이
과학
: 최선책, 최고의 해답 추구
공학접 접근
: 풀리지 않는 문제도 있다 - 현실적 해답 제시
: 비용고려 - 적절하고, 최소 비용으로 해결
API (Application Programming Interface)
: 응용 프로그래밍 인터페이스
: 프로그래밍 언어에 제공되는 인터페이스 방식
: 클라이언트가 자료 호출 -> 서버가 자료를 알려주는 방식
Open API 방식
: 여러 사람들이 공동 사용할 필요가 있는 데이터에 대한 사용을 개방하고
: 사용자들이 해당 데이터에 대한 전문 지식이 없어도
: 쉽게 가공하여 사용할 수 있도록
: 데이터를 추상화하여 표준화한 인터페이스
실제로는 웹페이지 요청/응답 형태로 많이 제공
데이터 전처리, 분산저장, 보안 및 품질관리 등을 수행하는 단계
데이터 전처리 -> 분산저장 -> 보안 및 품질관리
-정확하고 신뢰할 수 있는 데이터 결과를 추출하기 위하여
-데이터 분석 및 처리에 적합한 형식으로
-데이터를 조작하는 과정
-노이즈 : 측정 과정에서 무작위로 발생한 측정값 에러
-아티팩트 : 특정 요인으로 발생하는 반복적 왜곡 Ex.카메라 렌즈의 얼룩
-이상치 : 다른 개체와 다른, 유별난 값의 출현
*노이즈는 불필요하지만, 이상치는 중요한 데이터가 될 수 있음!
Ex.전력 사용량의 이상 급증 -> 기계의 고장, 누전?
-결측치 : 자료 입력이 누락되거나, 고의로 빠진 경우
Ex.센서의 일시적 고장, 설문 조사의 특정항목 거부
-모순, 불일치
Ex.같은 주소, 다른 우편번호가 등록된 사례 --> 수정 필요
-중복 : 중복된 자료
--> 1개로 합치거나, 수정해서 다른 자료로 만드는 추가 작업 필요
-데이터 여과 Filtering : 오류 발견, 보정, 삭제 및 중복성 확인 등
-데이터 변환 Transformation : 데이터 분석이 용이한 형태로 변환
Ex. 정규화, 집합화, 요약, 계층 생성 등
ETL 도구 제공중
-데이터 정체 Cleansing : 결측치 체워 넣기, 이상치 식별 또는 제거, 잡음 섞인 데이터를 평활화하여 데이터의 불일치성 교청
-데이터 통합 Integratoin : 데이터 분석이 용이하도록 유사 데이터 및 연계가 필요한 데이터(또는 DB)등을 통합하는 기술
-데이터 축소 Reduction : 분석 컴퓨팅 시간을 단축할 수 있도록 데이터 분석에 활용되지 않는 항목 등 제거
-해당 레코드 무시
-자동으로 채우기
-담당자(전문가)가 수작업 입력
-구간화
-회귀값 적용(Regression)
-군집화 (Clustering)
-차원 : 분석에 필요 없거나 중복 항목 제거
-데이터 압축 : 데이터 인코딩이나 변환을 통해 데이터 축소
-DWT (Discrete Wavelet transform) : 선형 신호 처리
-PCA (Principal Components Analysis) : 데이터를 가장 잘 표현하고 있는 직교상의 데이터 벡터들을 찾아서 압축
-수량 축소 (Numerosity Reduction) : 데이터를 더 작은 형태로 표현해서 데이터의 크기 줄임