4주차

Suhyeon Lee·2024년 10월 11일
0

수업 목표

  • 중·장기적 측면에서 분석 마스터 플랜과 분석 거버너스 체계를 어떻게 수립하는지 학습

01. 마스터플랜 수립 프레임워크

  • 데이터 분석을 위한 마스터플랜 수립 과정 이해

분석 마스터플랜 수립 프레임워크

중요 포인트

  • 분석 과제 우선순위(기준)
  • 우선순위 평가 기준
  • 우선순위 설정 방법
  • 이행 계획 수립 방법

마스터플랜 수립 개요

  • 분석 대상을 도출하고 우선순위를 평가하여 세부 이행 계획과 로드맵을 작성
  • 분석 마스터 플랜을 수립하는 가장 첫 번째 단계는 우선순위를 정하는 일
    • 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성을 기준으로 설정
  • 그 다음 분석 과제의 적용 범위 및 방식을 설정
    • 분석 과제를 업무에 내재화할 것인지, 분석 데이터를 내부의 데이터로 한정할 것인지, 외부의 데이터까지 포함할 것인지 여부, 그리고 기술의 적용 수준까지의 설정을 포함
  • 분석 과제의 우선순위적용 범위방식을 종합적으로 고려하여 최종적으로 분석 구현의 로드맵 수립
    → 이러한 일련의 과정과 형식을 마스터플랜 수립 프레임워크라 부른다.


: 표 안의 내용이 많이 출제됨

  • 우선순위 고려요소 3가지 ★
    1. 전략적 중요도
    2. 비즈니스 성과
    3. 실행 용이성
      → 적용 우선순위 설정
  • 적용범위/방식 고려요소 3가지 ★
    1. 업무 내재화 적용 수준
    2. 분석 데이터 적용 수준
    3. 기술 적용 수준

💡 참고하면 좋을 내용 👀
기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획ISP(Information Strategy Planning)를 수행한다. ISP는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.
분석 마스터 플랜은 일반적인 ISP(정보 전략 계획)방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중/장기로 나누어 계획을 수립한다.

수행 과제 도출 및 우선순위 평가

  • 우선순위 평가
    • 정의된 데이터 과제에 대한 실행 순서를 정하는 것
    • 업무 영역별로 도출된 분석 과제를 우선순위 평가기준에 따라 평가하고, 과제 수행의 선/후행 관계를 고려하여 적용 순위를 조정해 최종 확정

일반적인 IT 프로젝트 우선순위 평가

: 정보전략계획(ISP)과 같은 일반적인 IT 프로젝트는 과제의 우선순위 평가를 위해 전략적 중요도, 실행 용이성 등 기업에서 고려하는 중요 가치 기준에 따라 다양한 관점에서의 우선순위 기준을 수립하여 평가

  • 예시

빅데이터의 특징을 고려한 분석 ROI 요소

  • 크게 투자 비용 요소와 비즈니스 효과 요소가 있음
  • 빅데이터의 특징인 4V를 ROI 관점으로 살펴보면, 크기(Volume), 다양성(Variety), 속도(Velocity)의 3V는 투자 비용(Investment) 측면의 요소
    • 크기 : 데이터의 규모 및 양을 의미, 대용량 데이터를 저장/처리하고 관리하기 위해서는 새로운 투자가 필요
    • 다양성 : 다양한 종류의 형태를 가진 데이터를 입수하는 데에 있어 투자가 필요
    • 속도 : 데이터 생성 속도 및 처리 속도를 빠르게 가공/분석하는 기술이 요구됨
  • 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 가치(Value)는 비즈니스 효과 측면의 요소
    • 가치 : 기업 데이터 분석을 통해 추구하거나 달성하고자 하는 목표 가치를 의미

ROI를 활용한 우선 순위 평가 기준

시급성

  • 전략적 중요도와 목표 가치(KPI)에 부합하는지에 따른 시급성이 가장 중요한 기준
  • 시급성의 판단 기준은 전략적 중요도가 핵심이며, 이는 현재의 관점에서 전략적 가치를 둘 것인지, 미래의 중장기적 관점에 전략적인 가치를 둘 것인지를 고려하고, 분석 과제의 목표 가치(KPI)를 함께 고려하여 시급성 여부를 판단
  • Value, 비지니스 효과 측면과 연결

난이도

  • 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도 역시 중요한 기준
  • 난이도는 현시점에서 과제를 추진하는 것이 적용 비용 측면과 범위 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로서, 데이터 분석의 적합성 여부를 따져 살펴봄
  • 3V와 연결

포트폴리오 사분면 분석을 활용한 우선순위 평가 기준

  • 우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석 과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위를 결정
  • 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면
  • 분석과제 적용 우선순위 기준을 ‘시급성’에 둔다면 ‘III → IV → II’ 영역 순서이며 우선순위 기준을 ‘난이도’에 둔다면 ‘III → I → II’ 영역 순서로 의사결정 가능
  • 이는 절대적인 것은 아니며, 시급성이 높고 난이도도 높은 ‘I’ 사분면의 경우 난이도를 낮추어 가장 먼저 우선순위를 정할 수도 있고 기술적인 난이도가 높다 하더라도 이를 조절하여 우선순위를 결정할 수도 있음
    • III (단기) → II (중장기)

이행 계획 수립

로드맵 수립

  • 분석 과제에 대한 포트폴리오 사분면(Quadrant) 분석을 통해 결정된 과제의 우선순위를 토대로 분석 과제별 적용범위 및 방식을 고려하여 최종 우선순위를 결정한 뒤 단계적 구현 로드맵을 수립
  • 단계별로 추진하고자 하는 목표를 명확히 정의한 뒤 과제별 선/후행 관계를 고려하여 단계별 추진 내용을 정렬

세부 이행계획 수립

  • 데이터 분석체계는 고전적인 폭포수(Water-Fall) 방식도 있으나 반복적인 정련과정을 통하여 프로젝트의 완성도를 높이는 방식을 주로 사용

  • 모든 단계를 반복하기 보다 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고 모델링 단계를 반복적으로 수행하는 혼합형(Analytics)을 많이 적용하며, 이러한 특성을 고려하여 세부적인 일정계획도 수립해야 함

  • 반복적 정련 특성을 고려한 일정계획 수립

  • 세부 일정 계획 추진 예시

02. 분석 거버넌스 체계 수립

  • 출제 Point
    • 분석 거버넌스 체계를 수립하기 위해서는 기업 내 전체적인 분석 기준들과 환경들을 분석해서 우리가 가지고 있는 현재 자원이 다른 경쟁사 및 유사 업종과 비교했을 때 어느 정도 수준에 있는지 평가해야 함
    • 분석을 할 수 있는 분석 조직, 분석 인력에 대한 교육을 통해 분석 거버넌스를 수립하는 것이 중요

분석 거버넌스 체계

개요

  • 거버넌스(Governmance)
    • '통치'라는 뜻
      • 정부(Government)와 같은 어원
    • 의사결정을 위한 데이터의 분석과 활용을 위한 체계적인 관리, 일정한 규칙과 규범을 의미

구성 요소 ★

  • 마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계
    1. 조직(Organization)
    2. 과제 기획 및 운영 프로세스(Process)
    3. 분석 관련 시스템(System)
    4. 데이터(Data)
    5. 분석 관련 교육 및 마인드 육성 체계(Human Resource)

데이터 분석 성숙도 모델 및 수준 진단

  • 분석 준비도와 분석 성숙도를 통해 우리 기업이 어느 정도 위치에 있는지 볼 수 있어 자주 출제됨

분석 수준 진단 프레임 워크

  • 분석 거버넌스 체계를 수립하기 위해 가장 먼저 선행되어야 하는 부분은 데이터 분석 수준을 진단하는 것
  • 분석 수준 진단은 분석 준비도와 분석 성숙도를 통해 진단 가능

    최근 많은 기업에서 빅데이터가 화두되고 있으며 데이터를 어떻게 분석, 활용하느냐가 기업의 경쟁력을 좌우하는 궁극적 요소로 인식되고 있습니다. 이에 따라 기업들은 데이터 분석의 도입 여부와 활용 여부에 대한 명확한 분석 수준을 점검할 필요가 있습니다.
    데이터 분석의 수준 진단을 통해 데이터 분석 기반을 구현하기 위해 무엇을 준비하고 보완해야 하는지 등 분석의 유형 및 분석의 방향성을 결정할 수 있습니다.

분석 준비도(Readiness) ★

  • 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법
    • 진단 영역별로 세부 항목에 대한 수준을 파악
    • 진단 결과 전체 요건 중 일정 수준 이상 충족하면 분석 업무를 도입
    • 충족하지 못하면 먼저 분석 환경을 조성

구성 영역

  • 분석 업무 파악
    • 발생한 사실 분석 업무
    • 예측 분석 업무
    • 시뮬레이션 분석 업무
    • 최적화 분석 업무
    • 분석 업무 정기적 개선
  • 인력 및 조직
    • 분석 전문가 직무 존재
    • 분석 전문가 교육 훈련 프로그램
    • 관리자 기본적 분석 능력
    • 전사 분석업무 총괄 조직 존재
    • 경영진 분석 업무 이해
  • 분석 기법
    • 업무별 적합한 분석기법 사용
    • 분석 업무 도입 방법론
    • 분석기법 라이브러리
    • 분석기법 효과성 평가
    • 분석기법 정기적 개선
  • 분석 데이터
    • 분석업무를 위한 데이터 충분성/신뢰성/적시성
    • 비구조적 데이터 관리
    • 외부 데이터 활용 체계
    • 기준데이터 관리(MDM)
  • 분석 문화
    • 사실에 근거한 의사결정
    • 관리자의 데이터 중시
    • 회의 등에서 데이터 활용
    • 경영진의 직관보다 데이터
    • 데이터 공유 및 협업 문화
  • IT 인프라
    • 운영 시스템 데이터 통합
    • EAI, ETL 등 데이터 유통체계
    • 분석 전용 서버 및 스토리지
    • 빅데이터/통계/비주얼 분석환경

분석 성숙도 ★

→ 우리 조직에서 데이터를 보는 문화가 어느 정도 도입이 되어 있는지(성숙되어 있는지) 확인

  • CMMI(Capability Maturity Model Integration) 모델을 기반으로 조직의 성숙도를 평가
    • 시스템 개발 업무능력과 조직의 성숙도(Maturity)를 파악
    • 소프트웨어공학에서 주로 사용
  • 기업에서 분석 수준은 성숙 단계에 따라 점차 진화하며 기업 특성에 따라 내용은 상이할 수 있음

분석 성숙도 수준 분류

  • 1단계: 도입
  • 2단계: 활용
  • 3단계: 확산
  • 4단계: 최적화

분석 성숙도 진단 분류

  • 비즈니스 부문, 조직 및 역량 부문, IT 부문의 3개 부문을 대상으로 성숙도 수준을 나누어 볼 수 있음

분석 성숙도 모델

  1. 도입 단계: 분석 시작, 환경과 시스템 구축
  • 비즈니스 부문
    • 실적 분석 및 통계
    • 정기 보고 수행
    • 운영 데이터 기반
  • 조직/역량 부문
    • 일부 부서에서 수행
    • 담당자 역량에 의존
  • IT 부문
    • 데이터 웨어하우스
    • 데이터 마트
    • ETL/EAI (데이터 유통체계)
    • OLAP
  1. 도입 단계: 분석 결과를 업무에 적용
  • 비즈니스 부문
    • 미래결과 예측
    • 시뮬레이션
    • 운영 데이터 기반
  • 조직/역량 부문
    • 전문 담당부서에서 수행
    • 분석기법 도입
    • 관리자가 분석 수행
  • IT 부문
    • 실시간 대시보드
    • 통계분석 환경
  1. 확산 단계: 전사 차원에서 분석 관리, 공유 ☆
  • 비즈니스 부문
    • 전사성과 실시간 분석
    • 프로세스 혁신 3.0
    • 분석규칙 관리
    • 이벤트 관리
  • 조직/역량 부문
    • 전사 모든 부서 수행
    • 분석 COE 조직 운영
    • 데이터 사이언티스트 확보
  • IT 부문
    • 빅데이터 관리 환경
    • 시뮬레이션/최적화
    • 비주얼 분석
    • 분석 전용 서버
  1. 최적화 단계: 분석을 진화시켜 혁신 및 성과 향상에 기여 ★
  • 비즈니스 부문
    • 외부 환경 분석 활용
    • 최적화 업무 적용
    • 실시간 분석
    • 비즈니스 모델 진화
  • 조직/역량 부문
    • 데이터 사이언스 그룹
    • 경영진 분석 활용
    • 전략 연계
  • IT 부문
    • 분석 협업환경
    • 분석 SandBox
    • 프로세스 내재화
    • 빅데이터 분석

문제 예시

  • 비즈니스 부문 확산 단계 설명에 '실시간 분석'이 있으면 오답
    • 실시간 분석은 "최적화 단계"

분석 수준 진단 결과 ★

  • 분석 준비도와 성숙도 진단 결과를 토대로 기업의 현재 분석 수준을 객관적으로 파악하고 이를 토대로 유관 업종 또는 경쟁사의 분석 수준과 비교해 분석 경쟁력 확보 및 강화를 위한 목표 수준을 설정
  • 분석 관점에서 4가지 유형으로 분석 수준 진단 결과를 구분
    • 향후 고려해야 하는 데이터 분석 수준에 대한 목표 방향을 정의
    • 유형별 특성에 따라 개선 방안을 수립

      → 설명과 이름 연결할 수 있어야 함

거버넌스 체계 수립

분석 지원 인프라 방안 수립

  • 분석 과제 단위별로 별도의 시스템을 구축하는 경우, 관리의 복잡도 및 비용의 증대라는 부작용이 나타남
  • 분석 마스터 플랜을 기획하는 단계에서부터 장기적이고 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절
    • 플랫폼?
      - 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용 프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템
      - 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할을 수행

데이터 거버넌스 체계 수립 ★

  • 데이터 거버넌스
    • 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것
    • 중요 관리 대상 → 3가지 암기!
      • 마스터 데이터(Master Data)
      • 메타 데이터(Meta Data)
      • 데이터 사전(Data Dictionary)

구성 요소 → 3가지 암기!

  1. 원칙 (Principle): 데이터를 유지 관리하기 위한 지침과 가이드
    e.g. 보완, 품질 기준, 변경 관리
  2. 조직 (Organization): 데이터를 관리할 조직의 역할과 책임
    e.g. 데이터 관리자, DB 관리자, 데이터 아키텍트(Data Architect)
  3. 프로세스 (Process): 데이터 관리를 위한 활동과 체계
    e.g. 작업 절차, 모니터링 활동, 측정 활동

체계 → 4가지 암기!

  1. 데이터 표준화
  • 데이터 표준화는 데이터 표준 용어 설정, 명명 규칙(Name Rule) 수립, 메타데이터(Metadata) 구축, 데이터 사전(Data Dictionary) 구축 등의 업무로 구성
    • 데이터 표준 용어 설정
      • 표준 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성
      • 사전 간 상호 검증이 가능하게 점검 프로세스를 포함해야 함
    • 명명 규칙
      • 필요시 언어별(한글, 영어 등)로 작성
      • 매핑 상태를 유지해야 함
  1. 데이터 관리 체계
  • 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립
  • 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비
  • 빅데이터의 경우 데이터 양의 급증으로 데이터의 생명 주기 관리방안(Data Life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리비용 증대 문제에 직면할 수 있음
  1. 데이터 저장소 관리(Repository)
  • 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
  • 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용소프트웨어(Application)을 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함
  • 데이터 구조 변경에 따른 사전 영향 평가도 수행돼야 효율적인 활용이 가능
  1. 표준화 활동
  • 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모티터링을 실시
  • 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행
  • 지속적인 데이터 표준화 개선 활동을 통하여 실용성 높이기

데이터 조직 및 인력방안 수립

데이터 분석 조직 ☆

  • 데이터 분석 조직이란

    • 기업의 경쟁력 확보를 위해 데이터 분석의 가치를 발견하고, 이를 활용하여 비즈니스를 최적화하는 목표를 갖고 구성
    • 기업의 업무 전반에 걸쳐 다양한 분석 과제를 발굴해 정의하고, 데이터 분석을 통해 의미 있는 인사이트를 찾아 실행하는 역할을 수행
    • 다양한 분야의 지식과 경험을 가진 인력과 업무 담당자 등으로 구성된 전사 또는 부서 내 조직으로 구성
  • 목표: 기업의 경쟁력 확보를 위하여 비즈니스 질문(Question)과 이에 부합하는 가치(Value)를 찾고 비즈니스를 최적화(Optimization) 하는 것

  • 역할: 전사 및 부서의 분석 업무를 발굴하고 전문적 기법과 분석 도구를 활용하여 기업 내 존재하는 빅데이터 속에서 Insight를 찾아 전파하고 이를 Action화 하는 것

  • 구성: 기초통계학 및 분석 방법에 대한 지식과 분석 경험을 가지고 있는 인력으로 전사 또는 부서 내 조직으로 구성하여 운영

분석 조직 및 인력 구성 시 고려사항

데이터 분석 조직 유형 ★


→ 표를 보고 어떤 유형의 데이터 분석 조직인지 구분하기
1. 집중형 조직 구조

  • 조직 내에 별도의 독립적인 분석 전담조직을 구성하고, 회사의 모든 분석 업무를 전담 조직에서 담당
  • 분석 전담조직 내부에서 전사 분석 과제의 전략적인 중요도에 따라 우선순위 를 정하여 추진
  • 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다는 단점
  1. 기능 중심의 조직 구조
  • 일반적으로 분석을 수행하는 형태이며, 별도로 분석 조직을 구성하지 않고 각 해당 업무 부서에서 직접 분석하는 형태
  • 전사적 관점에서 핵심 분석이 어려우며, 특정 업무 부서에 국한된 분석을 수행할 가능성이 높거나 일부 중복된 분석 업무를 수행할 수 있는 조직구조
  1. 분산된 조직 구조
  • 분석 조직의 인력들을 현업부서에 배치해 분석 업무를 수행하는 형태
  • 전사 차원에서 분석 과제의 우선순위를 선정해 수행이 가능하며, 분석 결과를 신속하게 실무에 적용 할 수 있는 장점

분석 과제 관리 프로세스 수립 및 교육/변화관리

분석 과제 관리 프로세스 수립

  • 개요

    • 분석 마스터 플랜이 수립되고 초기 데이터 분석 과제가 성공적으로 수행되는 경우, 지속적인 분석 니즈 및 기회가 분석 과제 행태로 도출될 수 있음
    • 이런 과정에서 분석 조직이 수행할 주요한 역할 중의 하나가 분석 과제의 기획 및 운영이므로 이를 체계적으로 관리하기 위한 프로세스를 수립해야 함
  • 분석 과제 관리 프로세스

    • 과제 발굴 단계

      • 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행
    • 과제 수행 단계
      - 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행


      → 그림 속 내용 7가지 기억: 각각 과제발굴/과제수행 중 어디에 해당하는지 파악

분석 교육 및 변화관리

  • 빅데이터의 등장 → 많은 비즈니스 영역에서 변화를 가져옴
  • 이러한 변화에 대응하기 위해서는 기업에 맞는 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대한 지속적인 교육과 훈련을 실시하여야 함
  • 또한 경영층이 데이터에 기반 의사결정을 할 수 있는 기업 문화를 정착시키려는 변화관리를 지속적으로 계획하고 수행하여야 함
  • 분석 역량 확보가 중요

분석 도입에 대한 문화적 대응

  • 과거에는 분석 업무를 기업의 분석가가 담당했지만 최근 모든 구성원이 데이터를 분석하고 이를 업무에 즉시 활용할 수 있도록 분석 문화를 정착시키려는 움직임이 있음
  • 새로운 체계를 도입할 때 기존 행태로 되돌아가는 관성이 존재하기 때문에 분석과 관련된 교육 및 마인드 육성을 위한 적극적인 변화관리가 필요
  • A : 분석 중심 문화가 미도입된 현재 균형상태 / 막연한 불안감 존재
  • B : 기존 행태로 되돌아가려는 경향
  • C : 성공 시 강한 탄성에 의해 변화 가속화
  • D : 분석 활용이 일상화된 균형 상태

분석교육 목표

  • 분석 기획자: 데이터 분석 큐레이션 교육
  • 분석 실무자: 데이터 분석 기법 및 툴에 대한 교육
  • 업무 수행자: 분석기회 발굴, 구체화, 시나리오 작성법 등

03. R 설치: R을 활용한 분석 실습

  • 데이터 분석 도구인 R의 기본적인 기능 학습

설치 및 기본 구성

  • R과 RStudio를 설치하고 GUI 이해하기

R 소개

  • 데이터 분석을 위하여 사용하는 다양한 종류의 소프트웨어 중 하나
    • 통계학자나 데이터 분석가가 주로 사용
  • 통계 분석 과정에서 수행되는 복잡한 계산이나 시각화 기법을 쉽게 사용할 수 있도록 설계된 무료 소프트웨어
  • 뉴질랜드 통계학자인 로스 이하카와 캐나다 통계학자인 로버트 젠틀맨에 의하여 제작된 통계 분석을 위한 언어로, 빠른 속도로 확산되어 다양한 분야에서 사용하고 있음

다양한 통계 분석 프로그램 비교

SASSPSSR
프로그램 비용유료, 고가유료, 고가오픈소스
설치 용량대용량대용량저용량 (모듈화로 간단)
다양한 모듈 지원 및 비용별도 구매별도 구매오픈소스
최근 알고리즘 및 기술 반영느림다소 느림매우 빠름
학습자료 입수의 편의성유료 도서 위주유료 도서 위주다양한 공개 논문 및 자료
질의를 위한 공개 커뮤니티NANA매우 활발

→ 요즘은 파이썬을 가지고도 다양한 통계 분석 진행함

R Studio

  • R: 언어, R Studio: 프로그램
  • 사용자가 원하는 대로 R 명령문을 활용하여 구현하게 해주는 통합 개발 환경(IDE)
    • R언어를 활용하여 작성된 함수에 따라 데이터를 분석하고, 결과 및 시각화된 결과를 사용자에게 개발 환경에서 즉시 보여줌
  • R 언어를 더 쉽고 효과적으로 사용할 수 있게 해주는 프로그램

04. R 기본구성 및 데이터 구조 1

RStudio 기본 구성

  • A: R 스크립트 창
    • 명령문을 작성하여 실행할 수 있는 공간
    • R 스크립트 창이 보이지 않는다면? File → New File → R Script 선택
  • B: 콘솔 창
    • R 명령어가 입력되고, 결과가 출력되는 작업공간
  • C: 환경(Environment)과 히스토리(History)
    • 환경 창에서는 명령문을 통해 생성된 변수, 불러온 데이터, 생성된 함수 등의 정보를 살펴볼 수 있으며, 히스토리 창에서는 그동안 실행된 과거 명령문을 볼 수 있음
  • D: 기타(파일, 산점도, 패키지, 도움말, 기타 뷰어)
    • 현재 문서들이 저장된 파일, 현재 호출되어 있는 패키지, 산점도 같은 시각화 데이터, 도움말 등을 확인할 수 있는 공간
    • 그래프가 나타나는 영역

R 데이터 구조

  • R 데이터 구조를 학습하고 실습과정 이해
  • R에는 다양한 데이터 구조가 존재하지만 그 중에서도 R에서 가장 많이 사용되는 스칼라, 벡터, 행렬, 배열, 리스트, 데이터 프레임에 대해 알아보기

벡터

  • 타입이 같은 여러 데이터를 하나의 행으로 저장하는 1차원 데이터 구조
  • 벡터 데이터 내에 들어갈 수 있는 데이터는 숫자, 문자, 논리 연산자 등
    cf. 스칼라(scalar): 하나의 값
  • 숫자로 이루어진 벡터 == 숫자 벡터, 문자로 이루어진 벡터 == 문자 벡터
  • R에서 다루는 데이터 구조 중 가장 단순한 형태
  • 명령어 C를 이용해 선언
    • 'c'는 concentration(연결)을 의미
타입R 코드설명
문자형 타입(Character)“a”, ”abc”따옴표 혹은 쌍따옴표로 표시할 경우 모두 문자형이 됨
숫자형 타입 (Number)numeric(숫자형), integer(정수), double(실수)계산이 가능한 데이터
논리형 타입 (Logical)True(1), False(0)R은 대문자와 소문자를 구분하여 인식하므로 반드시 모든 글자를 대문자로 기입해야 논리 연산자로 인식
x = c(1, 10, 20, 30)
y = c("사과", "복숭아", "바나나")
z = c(TRUE, FALSE, TRUE)
* 등호 '='의 경우 우측의 값을 좌측의 변수에 할당한다는 의미
* '<-'화살표를 사용할 수도 있음
  • 벡터를 생성할 때 c안에 콤마를 넣어 구분자로 쓸 수 있지만 콜론(:)을 활용하여 시작값과 끝값을 지정하여 벡터를 생성할 수 있음
> class1 = c(1:10)
> class1 
[1]  1  2  3  4  5  6  7  8  9 10
* '>'는 R에서 자동적으로 출력되는 기호이므로 실제 R 명령어를 작성할 때는 적지 않는다
  • 벡터와 벡터를 결합하여 새로운 벡터를 형성할 수도 있음
  • 벡터의 형식이 서로 다른 경우
    • 문자형 벡터가 포함되면 합쳐지는 벡터는 문자형 백터가 됨
> x <- c(1, 10, 20, 30)
> y <- c("사과", "복숭아", "바나나")
> xy <- c(x,y)
> xy
[1] "1"   "10"   "20"   "30"   "사과"   "복숭아"   "바나나"

: 숫자형 벡터인 x와 문자형 벡터인 y를 xy라는 벡터로 합쳤습니다. 합쳐진 xy벡터는 x벡터가 가지고 있던 1, 10. 20, 30의 값을 그대로 가지고는 있지만 문자형 벡터로 전환되었기 때문에 이 값들을 숫자가 아닌 문자 데이터로 인식하게 됩니다.

요약

  • 벡터들은 동질적임 → 타입이 같은 여러 데이터
  • 벡터들은 위치로 인덱스됨
    • A[3]는 A 벡터의 3번째 원소를 의미

NaN, NULL ★

→ 이상치, 결측치 파트와 관련

  • NaN
    • Not a Number의 약자
    • 오류와 함께 숫자가 아님을 반환
      • e.g. 음수의 제곱근을 구하려고 시도한 경우
  • NA / NULL: 결측값을 의미
    • NA
      • Not Available의 약자
      • 공간을 차지하는 결측값
    • NULL
      • 공간을 차지하지 않는 존재하지 않는 값

기출 문제 정리

  • 우선적으로 추진해야 하는 과제는 시급성이 현재이며, 난이도가 쉬운 분석 과제

  • 빅데이터의 특징인 4V를 ROI 관점으로 살펴보기

    • 크기(Volume), 다양성(Variety), 속도(Velocity)의 3V: 투자 비용 측면의 요소
    • 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 가치(Value): 비즈니스 효과 측면의 요소
  • 분석 마스터 플랜을 수립하는 가장 첫 번째 단계는 우선순위를 정하는 일

  • 분석 준비도의 구성요소

    • 사실에 의거한 의사결정, 회의 등에서 데이터 활용, 데이터 공유 및 협업 문화
      → 분석 문화를 진단하기 위한 항목
    • 전사 분석업무 총괄 조직 존재
      → 인력 및 조직을 진단하기 위한 항목
  • 분석 성숙도

    • 도입: 조직/역량 부문에서 담당자 역량에 의존
    • 활용: 비즈니스 부문에서 미래 결과 예측
    • 확산: 비스니스 부문에서 전사성과 실시간 분석
    • 최적화: IT 부문에서 프로세스 내재화
  • 분석 교육 목표

    • SQLD는 데이터 분석 역량 확보에 도움이 될 수 있지만 필수는 아님
  • 벡터는 같은 타입의 여러 데이터를 하나의 행으로 저장하는 1차원 데이터 구조

  • 백터들은 동질적인 특징을 가짐

profile
2 B R 0 2 B

0개의 댓글