(ADsP) 13. 데이터 마트

후웅후웅·2024년 2월 15일

ADsP

목록 보기
13/23

1) 데이터 마트의 이해

(1) ⭐데이터 마트

  • 효울적인 데이터 분석을 위해서는 데이터를 체계적으로 준비할 필요가 있다. 따라서 데이터 분석을 하기에 앞서 분석 목적에 맞춰 데이터를 수집, 변형하는 과정이 필요하다.
  • 데이터 마트란 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스다.
  • 이렇게 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업을 데이터 마트 개발이라 부른다.
  • 효율적인 데이터 마트 개발을 위하여 R에서 제공하는 reshpae, sqldf, plyr등의 다양한 패키지를 활용할 수 있다.

(2) 데이터 전처리

  • 데이터 마트에 사용자가 원하는 데이터를 수집하고 변형하여 적재했다면(데이터 마트를 개발했다면), 이제 전처리 단계를 거쳐야한다.
  • 빅데이터 분석 단계에 들어가기 전, 데이터를 전처리(preprocessing)하는 과정이 꼭 필요하다. 이 전처리에는 데이터를 정제(cleansing)하는 과정과 분석 변수를 처리하는 과정이 포함된다. 간혹 인터넷 상에서 이 둘을 혼용하는 사례가 있는데, 전처리는 정제와 변수 처리를 포함한 광의의 개념이다.
  • 데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용으로 이루어진다. 분석 변수 처리 과정은 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리) 등으로 이루어 진다.

2) 데이터 마트 개발을 위한 R패키지 활용

(1) reshape 패키지

  • reshape 패키지는 20개에 가까운 함수들을 보유하고 있으며, 데이터 마트를 개발하는 데 강력한 melt와 cast라는 두 개의 함수가 있다.

  • 이 패키지에 포함된 함수와 활용법은 R 공식 문서에서 확인할 수 있다.

  • melt 함수 : '녹이다'라는 뜻의 melt함수는 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다.

  • cast 함수 : '주조하다'라는 의미의 cast함수는 melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공 할 수 있게 도와준다.

(2) sqldf 패키지

  • sqldf는 표준 SQL 문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해주는 패키지로서 SAS에서 PROC SQL과 같은 역할을 한다.

(3) plyr 패키지

  • plyr은 apply함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공한다. plyr은 입력되는 데이터 구조와 출력되는 데이터 구조에 따라 여러 가지 ㅎ ㅏㅁ수를 지원한다.
  • 이 밖에도 다양한 함수를 제공하지만 그중 ddply함수는 시험 출제 빈도와 실제 활용 빈도가 상당히 높으므로 반드시 숙지하기를 권한다.

(4) ⭐data.table 패키지

  • 데이터 테이블은 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조다.
  • 기존 데이터프레임보다 적게는 4배에서 크게는 100배에 가까운 빠른 속도로 데이터를 탐색, 연산, 정렬, 병합할 수 있게 한다.
profile
뭐든 열심히

0개의 댓글