02.데이터 수집, 가공

ppm_Vely·2022년 6월 21일
0

데이터분석

목록 보기
2/4

1. 데이터 분석이란?

데이터 분석 : 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정

1-1. 데이터 분석의 목표

경제적 가치 창출

-업무 생산성 향상 : 자원의 추적 관리, 자원 사용/관리의 최적화

-고객 맞춤형 마케팅 : 고객 감성/경험 분석 -> 요구 예측 -> 고객별 대응

   ● CRM 고객관계관리

-의사결정 능력 향상 : 정보 연계성 파악, 고객 요구 실시간 파악 -> 정확한 정보 확보 -> 가치 기반 의사결정

-신 사업 창출 : 새로운 고객 가치 창출 -> 사업 기회 확대

EX. 아마존 CRM : 온라인 서점 -> 고객 맞춤형 서비스 -> 종합 택배회사

1-2. 데이터 분석의 역할

-불확실성 해소 - 통찰력 제공

-위험 RISK 감지 회피 - 대응력 제공

-스마트 경제 도입 - 경쟁력 상승

-융합 기술 도입 - 창초력 향상

1-3. 데이터 분석 과정

문제정의 = 필요한 지식 knowledge가 무엇인가?

데이터 수집 = 데이터 검색, 수동/자동으로 수집, raw data 확보

데이터 가공(전처리) = 데이터 필터링, 데이터 변환, 정제된 데이터 확보

데이터 저장/관리 = 데이터베이스, 데이터 웨어하우스, 데이터 마트

데이터 분석 = 통계 분석, 최적화, 예측

데이터 가시화 = 정보 시각화 visualization

데이터 공유 - 서로 다른 시스템 간의 공유

지식 knowledge 활용

1-4. 데이터 플랫폼

: 데이터 기술을 잘 사용할 수 있도록 준비된 환경

빅데이터 수집 -> 빅데이터 저장 -> 빅데이터 처리 -> 빅데이터 관리

: 대용량 컴퓨팅 시스템을 응용하는 경우가 많음

-데이터 수집 플랫폼 -- Crawling

-데이터 저장 플랫폼 -- HDFS

-데이터 처리 플랫폼 -- Spark, Storm(원래는 분산형 컴퓨팅 프레임워크)

-데이터 관리 플랫품 -- 통계분석, 데이터 마이닝, 최적화

2. 데이터 수집

※과학 science & 공학 engineering 차이

과학

: 최선책, 최고의 해답 추구

공학접 접근

: 풀리지 않는 문제도 있다 - 현실적 해답 제시

: 비용고려 - 적절하고, 최소 비용으로 해결

API (Application Programming Interface)

: 응용 프로그래밍 인터페이스

: 프로그래밍 언어에 제공되는 인터페이스 방식

: 클라이언트가 자료 호출 -> 서버가 자료를 알려주는 방식

Open API 방식

: 여러 사람들이 공동 사용할 필요가 있는 데이터에 대한 사용을 개방하고

: 사용자들이 해당 데이터에 대한 전문 지식이 없어도

: 쉽게 가공하여 사용할 수 있도록

: 데이터를 추상화하여 표준화한 인터페이스

실제로는 웹페이지 요청/응답 형태로 많이 제공

  • XML, JSON 형식

3. 데이터 가공

데이터 전처리, 분산저장, 보안 및 품질관리 등을 수행하는 단계

데이터 전처리 -> 분산저장 -> 보안 및 품질관리

3-1. 데이터 전처리

-정확하고 신뢰할 수 있는 데이터 결과를 추출하기 위하여

-데이터 분석 및 처리에 적합한 형식으로

-데이터를 조작하는 과정

  • Garbage in, Garbage out : 쓰레기 데이터를 넣으면 쓰레기 데이터가 나온다

[데이터 품질 저해 해소]

-노이즈 : 측정 과정에서 무작위로 발생한 측정값 에러

-아티팩트 : 특정 요인으로 발생하는 반복적 왜곡 Ex.카메라 렌즈의 얼룩

-이상치 : 다른 개체와 다른, 유별난 값의 출현

*노이즈는 불필요하지만, 이상치는 중요한 데이터가 될 수 있음!

Ex.전력 사용량의 이상 급증 -> 기계의 고장, 누전?

-결측치 : 자료 입력이 누락되거나, 고의로 빠진 경우

Ex.센서의 일시적 고장, 설문 조사의 특정항목 거부

-모순, 불일치

Ex.같은 주소, 다른 우편번호가 등록된 사례  --> 수정 필요

-중복 : 중복된 자료

--> 1개로 합치거나, 수정해서 다른 자료로 만드는 추가 작업 필요

[데이터 전처리 기술]

-데이터 여과 Filtering : 오류 발견, 보정, 삭제 및 중복성 확인 등

-데이터 변환 Transformation : 데이터 분석이 용이한 형태로 변환

Ex. 정규화, 집합화, 요약, 계층 생성 등

ETL 도구 제공중

-데이터 정체 Cleansing : 결측치 체워 넣기, 이상치 식별 또는 제거, 잡음 섞인 데이터를 평활화하여 데이터의 불일치성 교청

-데이터 통합 Integratoin : 데이터 분석이 용이하도록 유사 데이터 및 연계가 필요한 데이터(또는 DB)등을 통합하는 기술

-데이터 축소 Reduction : 분석 컴퓨팅 시간을 단축할 수 있도록 데이터 분석에 활용되지 않는 항목 등 제거

[데이터 정체 기술]

● 결측치 처리 방법

-해당 레코드 무시

-자동으로 채우기

-담당자(전문가)가 수작업 입력

● 잡읍 처리 방법

-구간화

-회귀값 적용(Regression)

-군집화 (Clustering)

● 불필요한 데이터 축소 -> 효율성 향상

-차원 : 분석에 필요 없거나 중복 항목 제거

-데이터 압축 : 데이터 인코딩이나 변환을 통해 데이터 축소

-DWT (Discrete Wavelet transform) : 선형 신호 처리

-PCA (Principal Components Analysis) : 데이터를 가장 잘 표현하고 있는 직교상의 데이터 벡터들을 찾아서 압축

-수량 축소 (Numerosity Reduction) : 데이터를 더 작은 형태로 표현해서 데이터의 크기 줄임

profile
오늘도 개발중인 ppm's Programming Log

0개의 댓글