[데이터분석 데브코스] TIL Day 1 - 데이터 문해력이란

콩이·2024년 2월 19일

📍 1-1. 데이터란?

도대체 데이터란 무엇인가?

데이터란 무엇인가

  • 데이터는 우리가 일상생활에서 관찰하는 모든 것
    ex) 온도, 풍향, 소리 등

  • 데이터를 바탕으로 의미있는 정보의 도출이 가능함.
    ex) 사이렌 소리와 차 움직이는 소리는 각각 데이터이지만 데이터를 조합하고 과거의 경험을 통해 '위험한 일이 생겼다'라는 정보를 도출할 수 있음.

  • 데이터를 기록하고 수집하는 것이 데이터 분석의 시작!

데이터 크기 변화

  • 웹이 1990년대에 나오면서 커머셜 환경이 오프라인 -> 온라인으로 옮겨가게됨.

  • 아이폰이 나오면서 모바일 환경이라는게 만들어지고 데이터 크기가 폭발적으로 성장하기 시작했으며, 그와 동시에 클라우드가 나오고 구글에서 나온 논문을 바탕으로 빅데이터를 다루는 기술이 보편화 되기 시작함.

  • 빅데이터를 처리하는 시스템을 분산처리 시스템이라고 부름.

  • 빅데이터의 예시
    1) 디바이스 데이터(모바일)
    2) 웹 데이터


📍 1-2. 데이터 팀의 미션

데이터 팀의 일반적인 미션과 이상적인 발전 단계를 통해 데이터 팀이 어떻게 회사의 발전/성장에 도움이 되는지 살펴본다

데이터 조직의 미션은?

  • 부가 가치를 생성하는 것(신뢰할 수 있는 데이터를 바탕으로)

  • Ex - 반도체 회사는 반도체를 잘 만들어서 수입을 얻는 것이 목표. 데이터 조직은 어떻게 반도체를 더 팔 수 있게 만들 수 있을까? 반도체 만드는 공정을 개선하고, 운영비용을 최소화하도록 공정을 자동화하고 오류를 예측해 예비조치를 취할 수 있게 하는 등의 조치를 취할 수 있음

데이터를 가지고 부가 가치를 만드는 2가지 방법이 있는데, 다음에서 알아보도록 한다.

데이터 조직이 하는 일 (1) - Decision Science

  • 고품질 데이터를 기반으로 의사 결정권자에게 입력을 제공

    데이터를 고려한 결정(data infomred decisions) 과 데이터 기반 결정(data driven decisions)가 존재

    1) 데이터를 고려한 결정(data infomred decisions) : 내가 가고싶은 방향과 가설이 뚜렷하게 있고 그 방향으로 움직임에 있어서 데이터를 참고하겠다는 의미가 강함

    2) 데이터 기반 결정(data driven decisions) : 내가 가고싶은 방향이 명확히 없고 데이터가 하라는대로 하겠다는 의미가 강함

  • 요약 - 이미 잘 진행되고 있는 일이 있고 그 일을 더 잘하기 위해 최적화를 해야한다면 2) 을 적용하는 것이 더 좋으며, 최적화의 단계라기보단 탐험하는 단계면 1) 을 적용하는 것을 추천

데이터 조직이 하는 일 (2) - Product Science

  • 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화
    ex) 공장의 경우 공정과정에서 생기는 오류를 최소화 or 기기 고장 예측, 개인화를 바탕으로한 추천 기능 제공 등

데이터 흐름과 데이터 팀의 발전 단계

  • 데이터가 만들어지면 그 데이터는 누군가에 의해 기록됨. 기록되면 데이터 엔지니어들이 정제하고 어디엔가 저장하게 되는데 그것을 데이터 인프라라고 함.

  • 데이터 분석을 위해 데이터가 적재될 곳이 필요하고 적재해주는 프로세스를 ETL/데이터 파이프라인이라고 부름.

  • 즉, 데이터 엔지니어는 내부/외부 데이터소스에서 데이터를 수집,정제하고 데이터 베이스에 적재를 해주는 일을 하며 이를 바탕으로 데이터 분석가들이 의사결정자가 데이터에 기반하여 의사결정할 수 있도록 도움.

  • 데이터 분석가는 지표 정의, 지표를 데이터 기반으로 계산해서 시각화함.

  • 데이터 과학자는 머신러닝과 같은 방법을 사용하여 사용자 경험을 개선하도록 함.


📍 1-3. 데이터 팀의 발전 단계 : 데이터 인프라 구축

데이터 팀의 첫 번째 이상적인 발전 단계는 데이터 인프라를 구축하는 것

  • 데이터 인프라 구축은 데이터 엔지니어가 수행함.

  • 데이터 인프라 구축을 위해서는 수집된 데이터를 저장할 수 있는 데이터 웨어하우스가 필요하고, 이곳에 다양한 데이터를 정제 후 적재해주는 프로세스들이 필요한데 이것을 ETL(Extract/Transform/Load) /데이터 파이프 라인이라고 부름.

  • 데이터의 크기가 커지면 빅데이터 처리 기술 사용해야함(Spark).

  • 데이터 웨어하우스 : 회사에 필요한 모든 데이터들을 모아놓은 중앙 데이터베이스

데이터 레이크(Data Lake) vs. 데이터 웨어하우스(Data Warehouse)

  • 데이터 레이크 : 훨씬 더 큰 데이터 웨어하우스라고 생각하면 됨. 좀 더 경제성이 있고 훨씬 큰 데이터를 낮은 가격으로 보관할 수 있음. 어떻게 사용해야할지 모르는 비구조화된 데이터를 저장하기에 맞는 저장소

  • 데이터 웨어하우스: SQL 기반의 관계형 데이터베이스이고 구조화된 데이터를 프로세싱하는데 최적이지만 비용이 비싸서 용도가 불분명한 비구조화된 데이터를 넣는데는 적합하지 않음.

  • 차이점 간단 정리 : 데이터 레이크가 스케일이 더 크고 경제성이 있는 데이터 저장소

📍 1-4. 데이터 팀의 발전 단계 : 데이터 분석

  • 데이터 분석가는 지표를 정의하고 지표를 이해하기 쉽게 시각화한 대시보드로 만들고 리포트를 만듦으로써 의사결정권자들이 더 좋은 결정을 할 수 있게 서포트 함.

  • ETL된 데이터를 조합하여 새로운 정보를 만들고 그거로 데이터 분석을 하는게 대부분 --> 이 과정을 ELT라고 부름.

ELT란? 데이터 엔지니어들이 데이터 인프라 안으로 가져온 정보를 조합하여 사용하기 쉬운 새로운 정보를 만들어 내는 과정

  • ELT를 할 때 가장 많이 사용하는 툴 : DBT

  • 데이터 분석가에게 중요한 것은 좋은 지표를 정의하는 것인데, 지표에도 여러가지가 존재. 의미있고 중요한 지표를 KPI라고 부름.

KPI 란?

  • KPI(Key Performance Indicator)란?

    • 조직내에서 달성하고자 하는 중요한 목표(보통 정량적인 숫자가 선호됨)

    • KPI 지표에서 중요한 것은 명확한 정의가 무엇인지 사람들이 이해하고 있어야함(예를 들어 매출액이면 refund된 물건도 포함된 매출액인지 포함되지 않은 매출액인 것인지).

    • KPI 수는 적을수록 좋음(상충하는 애들을 같이 쓰면 오히려 안 좋음).

시각화 대시보드란?

  • 지표 설정 외에 대시보드 형태로 보기 쉽게해야 함.

  • 지표의 경우 Accessible(쉽게 볼 수 있어야하고), Actionable(액션을 해야하는지 방향성이 보여야하고), Auditable(지표가 잘 계산?되었는지 감사할 수 있어야함) 가 중요 --> 3A

  • 많이 쓰이는 대시보드

    1) 태블로(Tableau)
    2) 파워 BI(Power BI)
    3) 룩커(Looker)


📍 1-5. 데이터 팀의 발전 단계 : 데이터 과학

  • 데이터 과학자는 머신러닝 모델을 만들어서 회사가 만들고 있는 제품/서비스의 기능개선을 데이터 기반으로 진행

    ex) 공장의 경우 공정과정에서 생기는 오류를 최소화 or 기기 고장 예측, 개인화를 바탕으로한 추천 기능 제공 등


📍 1-6. 클라우드란?

클라우드가 무엇인지 알아보고 대표적인 클라우드인 AWS에 대해 알아보자

클라우드 정의

  • 클라우드는 컴퓨팅 자원(SW,HW)을 네트워크를 통해 서비스 형태로 사용하는 것

  • 클라우드가 나오기전에는 서버나 컴퓨터를 쓰고싶으면 컴퓨터를 주문해서 배달받고 설치하고 그 위에 SW 설치하고 그 다음에 사용가능 했음. 이러한 과정을 누군가 대신해주고 나는 이미 누군가 해놓은 거를 사용하고 돈을 내는 형태가 클라우드라고 생각하면 됨.

  • no provisioning : 준비할 필요가 없다.
    pay as you go : 쓴 만큼 돈 지불하면 된다.

  • 장점
    1) 초기 투자 비용이 줄어듬(CAPEX이 아닌 OPEX)
    2) 리소스 준비를 위한 대기시간 대폭 감소
    3) 노는 리소스 제거로 비용 감소
    4) 글로벌 확장 용이
    5) SW 개발 시간 단축


📍 1-7. AWS란?

  • AWS는 Amazon Web Service의 약자로, 가장 큰 클라우드 컴퓨팅 업체

  • 아마존은 가장 큰 이커머스 사이트. 트래픽이 몰리는 때가 있음. 블프 같은! 그때 트래픽 이슈같은게 있는데, 이럴 때가 아니면 자원이 놀고 있음. 놀고있는 서버를 사람들한테 돈받고 빌려주면 어떨까 한건데 이게 AWS의 시작.

  • 최근들어 ML/AI 관련 서비스들도 내놓기 시작함.

AWS 제공 서비스들

자세한 제공 서비스와 관련된 것은 강의자료 및 필기 참고!


📍 1-8. 데이터 조직 구성원

데이터 조직을 구성하는 직군들은 무엇이 있는지 살펴보자

데이터 팀에는 누가 있을까?

1) 데이터 엔지니어

2) 데이터 분석가

3) 데이터 과학자

4) ML 엔지니어

5) MLOps 엔지니어

6) 프라이버시 엔지니어 - 시스템 디자인 시 개인정보와 같이 민감 정보를 어떻게 관리할지 도와주는 엔지니어

조직에 따라 한 사람이 몇 개의 역할을 동시 수행하는 것이 일반적!

데이터 엔지니어

  • 데이터 엔지니어는 SW 개발자. 파이썬, SQL, Spark 등을 다룸.

  • 내부/외부 데이터를 데이터 웨어하우스로 가져오는 역할을 수행

  • 외부 요청에 의해 새로운 데이터 소스 추가(요청이 많아지면 ETL 수가 많아짐. 누가 요청한 것인지 기록하는게 중요 -> 비즈니스 오너를 정하는게 중요)

  • 개인정보가 있는지 파악하고, 암호화를 진행하는 식의 방식도 필요

데이터 분석가

  • 데이터 웨어하우스의 데이터를 기반으로 지표를 만들고 시각화, 리포트를 생성하는 역할 수행

  • 이를 위해서 ELT를 잘 수행하는 것이 관건

ETL vs. ELT

  • ETL : 데이터 엔지니어가 데이터 시스템 밖에 있는 데이터를 안으로 가져오는 것

  • ELT : 데이터 분석가가 데이터 시스템 안에 있는 데이터를 조합하여 새로운 데이터를 만드는 것

데이터 과학자

  • 과거 데이터를 이용하여 패턴을 찾고 미래를 예측하는 머신러닝 만드는 역할을 수행(ex. 개인화, 추천 등)

  • 데이터에 왜곡이 있는지, 개인정보를 사용하고 있는지 체크해야함.

머신러닝 모델 사이클

문제 정의 ➡️ 훈련용 데이터 수집 ➡️ 모델 빌딩과 테스트 ➡️ 모델 배포 ➡️ 모델 A/B 테스트 ➡️ A/B 테스트 결과 분석 ➡️ 전체 배포

A/B 테스트

  • A/B 테스트는 사용자를 두 개의 그룹으로 나눠서 하나의 그룹(a그룹, 컨트롤이라고 부름)에는 기존 기능을 노출시키고 다른 그룹(b그룹, 테스트라고 부름)에는 새로운 기능을 노출시키고 그 차이를 특정 지표를 기준으로 비교해보는 것

📍 1-9. 데이터 문해력 정의

데이터를 수집하는 것은 시작일 뿐 데이터를 활용해야 한다

데이터 문해력이란?

  • 데이터를 이해하고 활용할 수 있는 능력

  • 즉, 데이터를 다음과 같이 활용하는 능력

    1) 데이터 기반 의사 결정(데이터 분석가)
    2) 데이터 기반 제품 개선(데이터 과학자)
    3) 데이터 GenAI 기반 생산성 증대

데이터 문해력 발전 트렌드

  • 데이터/IT조직 중심으로 데이터를 활용하는게 일반적이었는데 GenAI가 등장하고 많은 기업이 데이터 문해력을 기반으로 경쟁력을 만들어내다보니까 회사 전체 구성원이 함양해야하는 기본 능력으로 발전하고 있는게 트렌드 ➡️ 더 많은 인력들이 데이터 활용 능력을 갖게 됨

  • 생성형 AI를 활용하여 생산성을 증대(ex. 챗gpt와 같은 AI툴을 이용한 업무 효율성 증대가 가능해짐) + 개발 업무 뿐만 아니라 다양한 분야에 영향을 주고 있음

데이터 관리의 중요성

  • 잘못 관리된 데이터는 커다란 위험요소(ex. 개인정보 유출)

  • 데이터를 관리하는 프로세스가 필요 ➡️ 그런 프로세스가 데이터 거버넌스

  • 데이터 거버넌스 : 데이터 보안, 개인정보보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하는 모든 작업으로 여기에는 사람들이 취해야하는 조치, 따라야하는 프로세스, 데이터 수명 주기 전반에 걸쳐 이를 지원하는 기술이 포함됨


📍 1-10. 데이터 교훈

데이터 팀을 운영하면서 배운 교훈을 정리해보자

데이터 통해 매출이 발생해야 함

  • 어느 조직이든 회사에서의 존재 이유는 매출 창조 or 경비 절감

  • 직접적이든 간접적이든 데이터를 통해 회사 수익에 긍정적인 영향을 끼쳐야 함.

데이터 인프라가 첫 번째 스텝!

  • 데이터 인프라 없이는 데이터 분석이나 모델링은 불가능(작은 회사일 경우, 생존이 더 중요한 문제라 데이터 인프라는 조금 더 성장한 뒤 고려하는 경우도 있음)

데이터 품질은 아주 중요

  • 데이터 과학자가 모델링에 드는 시간을 100이라고 하면 70이 데이터 청소작업에 쓰임.
    ➡️ 그만큼 데이터 청소 작업이 중요

  • Garbage In Garbage Out

지표 정의 생각

  • 무슨 일을 하건 그 일의 성공 척도(지표)를 처음부터 생각

  • 지표 계산에 있어서 객관성이 중요

0개의 댓글