데이터 사이언티스트란?
- 데이터 사이언스를 통해 삶의 질을 높여주는 사람
- 데이터로부터 의미 있는 결론을 도출하여 의사결정을 합리적으로 도출하도록 돕는다.
- 수집한 데이터에서 패턴이나 추세를 발견해 인사이트를 도출하는 일을 한다.
- 알고리즘 기술 및 시스템 성능 향상 및 비즈니스 인사이트 도출까지 전 영역에서 활동하는 경우가 많다.
데이터 사이언스 vs. 데이터 분석
- 데이터 사이언스
- 인공지능의 하위 개념
- 과학적 방법론과 공학적 측면을 다루는 학문
- 과학적 방법론: 통계분석, 딥러닝, 기계학습 등을 통해 데이터로부터 통찰을 얻는 것
- 공학적 측면: 방대한 데이터 획득(수집, 변환, 저장) → 정제 → 모델링 → 분석/시각화 등의 과정을 통해 해결해야 하는 문제에 대한 솔루션을 제공하고 개선하는 것
- 수집(Collection)
- 내부 로그 수집
- 외부에서 제공되는 페이지 크롤링
- Open API에서 제공되는 분산된 데이터 모으기
- 변환(Transformation)
- 저장(Storage)
- Data Warehouse나 Data Lake에 데이터 저장
- Data Warehouse: 일정 규칙에 의해 정규화된 데이터가 모인 저장소
- Data Lake: 가공되지 않은 원시 상태의 데이터가 모인 저장소
- 정제(Cleansing)
- 데이터를 확인하고 데이터 결측치와 이상치 처리
- 분석(Analysis)
- 시각화(Visualization)
데이터 분석가, 데이터 엔지니어와의 차이점
- 데이터 직군은 업무 수행 범위가 겹치는 경우가 많아 구분이 어렵고 모호할 수 있음
- 서비스 준비를 위해 데이터를 획득하는 단계부터 서비스를 배포하는 과정까지 다양
- 데이터 직군에 속하는 데이터 분석가, 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 엔지니어, 백엔드 엔지니어가 서로 업무 수행 범위가 겹치는 부분이 있다.
- 인사이트를 도출하고 의사결정에 영향을 주는 일을 한다는 면에서는 비슷하지만 데이터 사이언티스트는 데이터 분석뿐만 아니라 딥러닝, 머신러닝 모델을 만드는 등의 분석 알고리즘을 추가로 개발하는 역할까지 수행
- 데이터 사이언티스트가 커버하는 범위가 더 넓음
- 데이터 분석가는 기획자 성향에 가깝고 데이터 엔지니어는 개발자 성향 직무에 가까우며 데이터 사이언티스트는 연구자 성향에 가깝다.
- 데이터 분석가: 데이터를 기반으로 인사이트 도출, 비즈니스 의사 결정에 영향
- 데이터 사이언티스트: 문제를 해결하기 위한 데이터 분석 모델(딥러닝/머신러닝) 제작
- 데이터 엔지니어: 데이터 처리 및 분석을 위한 데이터 파이프 라인 구축
데이터 사이언티스트 채용공고 살펴보기
카카오엔터테인먼트
업무 내용
- 유저의 컨텐츠 소비/행동 패턴 분석 및 검증
- 개인화 모델링
- 추천 및 랭킹 모델 개발
- 콘텐츠 관련 모델링
- 머신러닝 기반 product 개발
지원자격
- 수학, 통계, 컴퓨터 공학 및 관련 분야(Quantitative field) 전공 석사/박사 학위 혹은 이에 준하는 관련 경력을 갖춘 분
- 머신러닝, 통계에 대한 이해와 특정 도메인에 대한 깊이 있는 지식을 가진 분
- 데이터 처리를 위한 SQL, 모델링을 위한 프로그래밍(Python 또는 R) 활용 능력이 뛰어난 분
- 추천 및 랭킹 모델 경험이 있는 분
- 유관 업무 3년 이상의 실무 경력 혹은 이에 준하는 경험을 보유한 분
우대사항
- Product에 추천 및 랭킹 모델을 '개발-적용-평가-개선'하는 'End-to-End' 과정을 경험한 분
- 대용량 데이터를 통해 추천 및 랭킹 모델을 개발한 3년 이상의 실무 경험을 보유한 분
- 관련 논문을 이해하고 적용할 수 있는 분
- 문제를 정의하고 해결하는 것에 흥미가 있고, ownership을 가지고 과제를 진행하는 분
- 콘텐츠 관련 모델링에 경험이 있는 분
AB180
주요 업무
-머신러닝 기반의 광고 노출 및 오퍼월(Offerwall) 최적화 알고리즘 개발
-Large Language Model을 활용한 고객지원 및 데이터 분석 솔루션 개발
-광고 및 사용자 데이터 분석을 통해 고객사의 성장을 지원하는 에어브릿지 관련 기능 개발
자격 요건
-관련 경력 2년 이상 또는 이에 준하는 경험을 보유한 분
-사용자들이 모바일과 웹에서 만들어 내는 방대한 데이터에서 흥미로운 패턴을 찾아내는 것에 관심과 열정이 있으신 분
-통계, 머신러닝, 딥러닝 관련 전공자 또는 그에 준하는 배경지식을 가지신 분
-영어 논문을 읽고 필요한 지식을 습득하여 서비스 개발에 적용하는 것이 가능하신 분
-Python, R 등 데이터 분석/모델 개발을 위한 프로그래밍 언어를 1개 이상 자유롭게 사용 가능하신 분
-Tensorflow, PyTorch, scikit-learn 등 머신러닝 모델링 프레임워크를 사용한 서비스 구축 경험이 있으신 분
-SQL을 활용한 필요한 데이터 추출 및 가공 작업이 가능하신 분
우대사항
-광고, 커머스, 추천 시스템 등 사용자 데이터를 분석해 본 경험이 있으신 분
-모바일 게임에 대한 깊은 관심과 게이밍 생태계에 대한 풍부한 이해와 경험을 보유하신 분
-강화학습 (Multi-Armed Bandit 포함), 인과추론 (Causal Inference)에 대한 이론적 배경이 있으신 분
-Hadoop, Spark 등 빅데이터 분석 플랫폼을 활용한 대용량 데이터 분산 처리 경험이 있으신 분
-Snowflake, Databricks 등 데이터 웨어하우스 사용 경험이 있으신 분
-영어를 통한 의사소통을 유창하게 하실 수 있는 분
한국그린데이터
주요 업무
- 데이터 품질을 평가하고, 누락된 값이나 이상치를 처리하여 데이터를 정제
- 데이터를 구조화하고 표준화하여 분석에 적합한 형태로 가공
- 비즈니스 문제에 대한 분석 방법을 결정하고, 적절한 분석 기법을 제안
- 통계적 분석, 머신 러닝, 딥 러닝 등의 기법을 활용하여 데이터를 모델링하고 예측 모델을 개발
- 비즈니스 팀과 협력하여 데이터 분석 결과를 해석하고, 의사 결정에 활용할 수 있는 인사이트를 제공
- 비즈니스 요구 사항을 이해하고, 데이터 분석과 모델링을 통해 비즈니스 문제를 해결하고 최적화하는 솔루션을 제안
- 데이터 분석 및 머신 러닝 기술과 도구의 최신 동향을 조사하고, 새로운 기술을 습득하여 업무에 적용
- 데이터 분석 프로세스의 효율성을 개선하기 위해 자동화 및 최적화 방법을 연구하고 적용
자격 요건
- 학사 학위 이상의 데이터 사이언스, 통계학, 컴퓨터 공학, 물리학, 수학 등과 관련된 전공
- 데이터 분석 및 모델링에 대한 깊은 이해와 경험
- 데이터 처리 및 분석을 위한 프로그래밍 언어 (Python, R 등) 능숙한 활용 능력
- 데이터베이스 쿼리 언어(SQL)에 대한 이해와 경험
- 머신 러닝, 딥 러닝 기법에 대한 이해와 경험
우대사항
- 에너지 플랫폼 서비스의 데이터 분석 및 모델링 업무를 담당해본 경험
- AWS, GCP 등 클라우드 서비스를 사용해보신 분
- 기존 프로덕트 내 문제를 파악하고 지표를 정의하여 분석해본 경험
- AI모델 서비스를 위한 파이프라인을 운영해본 경험
- 팀에서의 협업 능력과 프로젝트 관리 경험
필요 역량
-
도메인 지식
-
컴퓨터 및 프로그래밍 역량
- 딥러닝, 머신러닝 분야 지식
- 데이터 전처리 및 모델링을 위한 코딩 능력
- 현업에서는 모델링하는 시간보다 전처리, EDA가 훨씬 비중이 크니 공부를 잘 해두어야 함
-
수학 및 통계지식
-
커뮤니케이션 능력
-
파이토치(PyTorch)
- 쉽게 제작할 수 있고, 내 의도에 맞게 만들 수 있고, 높은 성능을 보여준다는 장점 있음
업무 방식
출처
데이터 사이언스의 정의, 현실, 연봉(Feat.쉬운 설명)
데이터 사이언티스트 현실
데이터 사이언티스트가 하는 일은?
Data Science vs Data Analytics: Which Should You Choose?
What Is a Data Scientist? Salary, Skills, and How to Become One