1. 데이터 사이언스란?
- 데이터 사이언스에는 설명, 진단, 예측 및 규범 기능이 포함됨
- 이를 통해 조직은 데이터를 사용하여 무슨 일이 일어 났는지, 왜 일어 났는지, 무슨 일이 일어날 지, 예상 결과에 대해 무엇을 해야 하는지를 파악할 수 있음
- 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야
- 데이터 과학은 생물학, 의학, 공학, 사회학, 인문과학 등의 여러 분야에 응용되고 있음
(1) 데이터 사이언스의 작동 방식
- 개념적으로 볼 때 데이터 사이언스 프로세스는 다음 단계를 포함:
비즈니스 문제 이해 → 원시 데이터 수집 및 통합 → 데이터 탐색, 변환, 정리 및 준비 → 데이터를 기반으로 모델 생성 및 선택 → 모델 테스트, 조정 및 배포 → 모델 모니터링, 테스트, 새로 고침 및 관리
(2) 데이터 사이언스에 필요한 기술
1) 비즈니스 기술: 협업, 팀워크, 커뮤니케이션, 도메인 전문성/비즈니스 지식
2) 분석 기술: 데이터 준비, 머신 러닝, 통계, 지리 공간 분석 , 데이터 시각화
3) 컴퓨터 과학/ IT 기술: 데이터 파이프 라인, 모델 배포, 모니터링, 관리, 프로그래밍/코딩
(3) 데이터 사이언스가 다양한 산업 분야에서 해결하고 있는 과제의 몇 가지 예
1) 에너지
에너지 부문에서 탐사, 생산 및 운영을 최적화하는 동시에 다음과 같은 수요를 예상하는 데 사용됨
(장비 고장 예측, 미래 석유량 및 가격 예측, 배포 최적화, 배출 감소, 지반 구성 분석, 저장소 특성화)
2) 금융 및 보험
주로 위험 감소, 사기 감지 및 고객 경험 최적화에 중점을 둠
(신용 위험 예측,사기 감지, 고객 분석포트폴리오 위험 관리, 고객 이탈 가능성 결정, SOX, Basel II와 같은 규정의 준수)
3) 의료
주로 치료의 질을 개선하고 운영을 개선하며 비용을 줄이는 데 사용됨
(질병 위험 예측, 사기성 주장 감지, 맞춤형 약 복용량 처방, 이미지 분석에 의한 암의 감지, 청구 관리, 환자 안전 향상, 가장 위험에 처한 사람 결정
4) 제약
주로 다음과 같은 안전성, 제품 품질 및 약물 효능을 보장하는 데 사용됨
(최적 배치 결정, 임상 시험 분석, 제품 추적, 안정성 및 유통 기한 분석, 규정 준수를 위한 보고 및 분석 검증)
5) 제조
프로세스를 최적화하고 품질을 개선하며 공급 업체를 모니터링하는 데 도움이 됨
(수율 향상, 스크랩, 재작업 및 반품 감소, 보증 사기 감지, 규정 준수, 장비 고장 예측 및 방지)
2. 데이터 직무란 무엇인가?
- 기본적으로 데이터 직무는 기업 내 데이터와 연관된 다양한 개별 업무 또는 업무들의 집합을 의미
- 산업과 업종이 다르면 당연히 데이터를 활용하는 방식이 다르기에 데이터 분야 속에서 직무를 완벽하게 구분하여 정의하는 것은 어려운 일
- 데이터 자체에 집중(데이터 집중 직무) / 비즈니스에 데이터를 활용(데이터 활용 직무)하는 것에 집중하느냐로 나눌 수 있음
- 데이터 자체에 집중하는 직무를 다시 나눠보면 데이터를 수집하고 관리하는 것을 목적으로 하는 것 / 데이터를 분석하는 것을 목적으로 하는 직무로 구분할 수 있음
- 데이터를 분석하는 것을 더 나누면 데이터를 토대로 예측적 분석을 하는지, 데이터를 통해 현재 상황을 서술하는 것에 집중하는 지에 따라 세밀화하여 총 3가지 구분으로 나누어 살피는 것이 일반적
(1) 데이터 집중 직무 내의 명칭
- 데이터를 수집 및 관리하는 데이터 엔지니어
- 데이터로 미래를 예측하는 데이터 사이언티스트
- 데이터를 통해 현재 상황을 분석하는 것에 집중하는 데이터 분석가
=> 이러한 직무 분류는 이해를 쉽게 하기 위해 편의상 구분일 뿐 현실에서는 회사마다 직무의 구분, 명칭, 업무 범위는 다를 수 있음.
1) 개발자 느낌의 데이터 엔지니어
- 데이터 엔지니어: 기본적으로 데이터의 수집 및 관리를 담당
- 기업 내 데이터 기초 공사 → 어떻게 데이터를 수집할 지, 어떤 방식으로 데이터를 쌓을지, 어떻게 관리할지를 고민하여 회사 내 데이터 흐름을 생성
- 데이터를 수집하는 과정에서도 문제가 생길 수 있는데 이러한 관리까지도 데이터 엔지니어가 진행
- 조직 내 다른 구성원이 우리가 가진 데이터를 잘 활용할 수 있게 하는 것이 데이터 엔지니어링 분야의 핵심
- 데이터 대시보드를 개발하며 분석가가 필요하다고 하는 데이터 수집을 위한 개발을 함 (개발역량이 필요함)
2) 연구원 느낌의 데이터 사이언티스트
- 데이터 사이언티스트: 데이터에서 나타나는 현상을 통해 인사이트를 도출하는 사람들
- 대기업의 경우에는 보통 R&D 부서에 데이터 사이언티스트가 속하게 되는데 이 때는 새로운 논문을 기반으로 자사 서비스의 시스템을 개선하는 역할을 하게 됨
- 일정 패턴을 찾아내면 해당 패턴이 유의미한 것인지까지 알아내는 역할까지도 통상 진행하기에 통계학적 지식 또한 많이 필요
- 데이터를 관리하고 분석하여 비즈니스 문제를 해결하기 위한 다양한 기술 및 도메인 기반 기술을 필요로 하는 직업
- 데이터의 다각적 분석을 통해 조직의 전략 방향을 제시하는 기획자이자 전략가. 한 마디로 ‘데이터를 잘 다루는 사람’을 말함
- 데이터 엔지니어링과 수학, 통계학, 고급 컴퓨팅 등 다방면에 걸쳐 복합적이고 고도화된 지식과 능력을 갖춰야 함
- 데이터를 수집하고 가설과 추론을 개발한 다음 머신 러닝을 사용하여 해당 데이터 내의 패턴, 관계 및 추세를 감지
- 데이터분석가가 서비스를 위한 분석을 한다고 하면 사이언티스트는 연구를 함 (통계 + 개발 둘 다 중요)
<데이터 사이언티스트의 역할이 중요한 이유?>
- 수백만, 심지어 수십억 개의 데이터 포인트를 가져 와서 중요한 정보로 변환하여 조직이 비즈니스를 저장하거나 성장시킬 수 있는 예측을 할 수 있게 하므로 비즈니스에서 데이터 사이언티스트는 매우 중요함
3) 기획자스러운 느낌의 데이터 분석가
- 데이터를 분석하는 직무라고 보면 됨
- 그 기저에는 데이터 사이언티스트와 마찬가지로 데이터를 통해 인사이트를 발굴하고자 하는 목적이 있음
- 새로운 제품이나 서비스가 추가될 때 어떤 데이터를 수집할 것인지를 정의하는 일부터 비즈니스 주요 지표를 정의하고 분석하는 일, 데이터를 쉽게 파악할 수 있도록 시각화하는 일 등 다양한 업무를 진행
- 현재는 많은 기업에서 데이터 분석가는 사내 구성원의 데이터 활용 교육, 데이터 관련 업무를 요청받아 진행하는 일까지도 데이터 분석가의 직무 내용으로 여겨지고 있음
- 데이터엔지니어가 데이터를 수집해주면 그 데이터를 기반으로 분석을 함
추가로 필요한 데이터가 있을 경우 수집을 위한 설계를 함
- 분석에 필요한 기획을 함 (통계적 베이스가 중요)
※ 현실에서는 데이터 엔지니어 정도를 제외하고는 데이터 직무 내부에서 중첩되는 부분이 사실 많음
→ 다양한 산업에 대한 이해를 할 수 있고 다양한 직무의 중간에 있기에 직무 전환도 쉽다는 점에서 매력적으로 느껴지기도, 여러 분야의 트렌드를 캐치업하기 위해서는 개인적으로 공부에 투자해야 하는 시간이 있어야 한다는 점에서 어려움으로 다가오기도 함
장점도 단점도 같은 원인이기에 자신과 해당 직무가 잘 맞는지 파악하는 게 중요함
<reference(참조)>
데이터 사이언스-위키백과
데이터 과학-네이버지식백과
데이터 사이언스란?-TIBCO
데이터 집중 직무의 모든 것: 데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가
데이터 사이언티스트-네이버지식백과
<이미지 출처>
데이터 과학 전문성의 4가지 기둥-DATACATCHUP