직무 스터디: 데이터 사이언티스트

Suhyeon Lee·2024년 9월 30일
0

데이터 사이언티스트란?

  • 데이터 사이언스를 통해 삶의 질을 높여주는 사람
  • 데이터로부터 의미 있는 결론을 도출하여 의사결정을 합리적으로 도출하도록 돕는다.
  • 수집한 데이터에서 패턴이나 추세를 발견해 인사이트를 도출하는 일을 한다.
  • 알고리즘 기술 및 시스템 성능 향상 및 비즈니스 인사이트 도출까지 전 영역에서 활동하는 경우가 많다.

데이터 사이언스 vs. 데이터 분석

  • 데이터 사이언스
    • 인공지능의 하위 개념
    • 과학적 방법론과 공학적 측면을 다루는 학문
      • 과학적 방법론: 통계분석, 딥러닝, 기계학습 등을 통해 데이터로부터 통찰을 얻는 것
      • 공학적 측면: 방대한 데이터 획득(수집, 변환, 저장) → 정제 → 모델링 → 분석/시각화 등의 과정을 통해 해결해야 하는 문제에 대한 솔루션을 제공하고 개선하는 것
  • 수집(Collection)
    1. 내부 로그 수집
    2. 외부에서 제공되는 페이지 크롤링
    3. Open API에서 제공되는 분산된 데이터 모으기
  • 변환(Transformation)
    • 데이터를 저장하기 적절한 형태로 변환
  • 저장(Storage)
    • Data Warehouse나 Data Lake에 데이터 저장
      • Data Warehouse: 일정 규칙에 의해 정규화된 데이터가 모인 저장소
      • Data Lake: 가공되지 않은 원시 상태의 데이터가 모인 저장소
  • 정제(Cleansing)
    • 데이터를 확인하고 데이터 결측치와 이상치 처리
  • 분석(Analysis)
    • 통계, 기계학습 증을 통해 데이터 분석
  • 시각화(Visualization)
    • 분석 결과를 시각화하여 사용자에게 제공

데이터 분석가, 데이터 엔지니어와의 차이점

  • 데이터 직군은 업무 수행 범위가 겹치는 경우가 많아 구분이 어렵고 모호할 수 있음
    • 서비스 준비를 위해 데이터를 획득하는 단계부터 서비스를 배포하는 과정까지 다양
    • 데이터 직군에 속하는 데이터 분석가, 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 엔지니어, 백엔드 엔지니어가 서로 업무 수행 범위가 겹치는 부분이 있다.
  • 인사이트를 도출하고 의사결정에 영향을 주는 일을 한다는 면에서는 비슷하지만 데이터 사이언티스트는 데이터 분석뿐만 아니라 딥러닝, 머신러닝 모델을 만드는 등의 분석 알고리즘을 추가로 개발하는 역할까지 수행
  • 데이터 사이언티스트가 커버하는 범위가 더 넓음
  • 데이터 분석가는 기획자 성향에 가깝고 데이터 엔지니어는 개발자 성향 직무에 가까우며 데이터 사이언티스트는 연구자 성향에 가깝다.
    • 데이터 분석가: 데이터를 기반으로 인사이트 도출, 비즈니스 의사 결정에 영향
    • 데이터 사이언티스트: 문제를 해결하기 위한 데이터 분석 모델(딥러닝/머신러닝) 제작
    • 데이터 엔지니어: 데이터 처리 및 분석을 위한 데이터 파이프 라인 구축

데이터 사이언티스트 채용공고 살펴보기

카카오엔터테인먼트

업무 내용

  • 유저의 컨텐츠 소비/행동 패턴 분석 및 검증
  • 개인화 모델링
  • 추천 및 랭킹 모델 개발
  • 콘텐츠 관련 모델링
  • 머신러닝 기반 product 개발

지원자격

  • 수학, 통계, 컴퓨터 공학 및 관련 분야(Quantitative field) 전공 석사/박사 학위 혹은 이에 준하는 관련 경력을 갖춘 분
  • 머신러닝, 통계에 대한 이해와 특정 도메인에 대한 깊이 있는 지식을 가진 분
  • 데이터 처리를 위한 SQL, 모델링을 위한 프로그래밍(Python 또는 R) 활용 능력이 뛰어난 분
  • 추천 및 랭킹 모델 경험이 있는 분
  • 유관 업무 3년 이상의 실무 경력 혹은 이에 준하는 경험을 보유한 분

우대사항

  • Product에 추천 및 랭킹 모델을 '개발-적용-평가-개선'하는 'End-to-End' 과정을 경험한 분
  • 대용량 데이터를 통해 추천 및 랭킹 모델을 개발한 3년 이상의 실무 경험을 보유한 분
  • 관련 논문을 이해하고 적용할 수 있는 분
  • 문제를 정의하고 해결하는 것에 흥미가 있고, ownership을 가지고 과제를 진행하는 분
  • 콘텐츠 관련 모델링에 경험이 있는 분

AB180

주요 업무

-머신러닝 기반의 광고 노출 및 오퍼월(Offerwall) 최적화 알고리즘 개발
-Large Language Model을 활용한 고객지원 및 데이터 분석 솔루션 개발
-광고 및 사용자 데이터 분석을 통해 고객사의 성장을 지원하는 에어브릿지 관련 기능 개발

자격 요건

-관련 경력 2년 이상 또는 이에 준하는 경험을 보유한 분
-사용자들이 모바일과 웹에서 만들어 내는 방대한 데이터에서 흥미로운 패턴을 찾아내는 것에 관심과 열정이 있으신 분
-통계, 머신러닝, 딥러닝 관련 전공자 또는 그에 준하는 배경지식을 가지신 분
-영어 논문을 읽고 필요한 지식을 습득하여 서비스 개발에 적용하는 것이 가능하신 분
-Python, R 등 데이터 분석/모델 개발을 위한 프로그래밍 언어를 1개 이상 자유롭게 사용 가능하신 분
-Tensorflow, PyTorch, scikit-learn 등 머신러닝 모델링 프레임워크를 사용한 서비스 구축 경험이 있으신 분
-SQL을 활용한 필요한 데이터 추출 및 가공 작업이 가능하신 분

우대사항

-광고, 커머스, 추천 시스템 등 사용자 데이터를 분석해 본 경험이 있으신 분
-모바일 게임에 대한 깊은 관심과 게이밍 생태계에 대한 풍부한 이해와 경험을 보유하신 분
-강화학습 (Multi-Armed Bandit 포함), 인과추론 (Causal Inference)에 대한 이론적 배경이 있으신 분
-Hadoop, Spark 등 빅데이터 분석 플랫폼을 활용한 대용량 데이터 분산 처리 경험이 있으신 분
-Snowflake, Databricks 등 데이터 웨어하우스 사용 경험이 있으신 분
-영어를 통한 의사소통을 유창하게 하실 수 있는 분

한국그린데이터

주요 업무

  • 데이터 품질을 평가하고, 누락된 값이나 이상치를 처리하여 데이터를 정제
  • 데이터를 구조화하고 표준화하여 분석에 적합한 형태로 가공
  • 비즈니스 문제에 대한 분석 방법을 결정하고, 적절한 분석 기법을 제안
  • 통계적 분석, 머신 러닝, 딥 러닝 등의 기법을 활용하여 데이터를 모델링하고 예측 모델을 개발
  • 비즈니스 팀과 협력하여 데이터 분석 결과를 해석하고, 의사 결정에 활용할 수 있는 인사이트를 제공
  • 비즈니스 요구 사항을 이해하고, 데이터 분석과 모델링을 통해 비즈니스 문제를 해결하고 최적화하는 솔루션을 제안
  • 데이터 분석 및 머신 러닝 기술과 도구의 최신 동향을 조사하고, 새로운 기술을 습득하여 업무에 적용
  • 데이터 분석 프로세스의 효율성을 개선하기 위해 자동화 및 최적화 방법을 연구하고 적용

자격 요건

  • 학사 학위 이상의 데이터 사이언스, 통계학, 컴퓨터 공학, 물리학, 수학 등과 관련된 전공
  • 데이터 분석 및 모델링에 대한 깊은 이해와 경험
  • 데이터 처리 및 분석을 위한 프로그래밍 언어 (Python, R 등) 능숙한 활용 능력
  • 데이터베이스 쿼리 언어(SQL)에 대한 이해와 경험
  • 머신 러닝, 딥 러닝 기법에 대한 이해와 경험

우대사항

  • 에너지 플랫폼 서비스의 데이터 분석 및 모델링 업무를 담당해본 경험
  • AWS, GCP 등 클라우드 서비스를 사용해보신 분
  • 기존 프로덕트 내 문제를 파악하고 지표를 정의하여 분석해본 경험
  • AI모델 서비스를 위한 파이프라인을 운영해본 경험
  • 팀에서의 협업 능력과 프로젝트 관리 경험

필요 역량

  • 도메인 지식

  • 컴퓨터 및 프로그래밍 역량

    • 딥러닝, 머신러닝 분야 지식
    • 데이터 전처리 및 모델링을 위한 코딩 능력
    • 현업에서는 모델링하는 시간보다 전처리, EDA가 훨씬 비중이 크니 공부를 잘 해두어야 함
  • 수학 및 통계지식

  • 커뮤니케이션 능력

  • 파이토치(PyTorch)

    • 쉽게 제작할 수 있고, 내 의도에 맞게 만들 수 있고, 높은 성능을 보여준다는 장점 있음

업무 방식

  • 보통 3~4주 단위로 업무 계획

  • 처리해야 하는 업무를 우선순위를 기준으로 일일, 주간 업무를 한다.

    • 가급적 동일한 맥락으로 계획된 업무 진행
  • 하루 업무 진행 과정

    1. 데일리 스크럼
    2. 분석을 위한 데이터 수집 및 가공 작업
    3. 수집된 데이터 기반 분석
      각 부서에서 요청한 자료 리포트 준비
      알고리즘 프로토타입 제작
    4. 커뮤니케이션
    • 가장 큰 비중을 차지하는 시간
    • 미팅에 참석하여 서비스 개선과 진행 중인 프로젝트에 대하여 논의하고 업무를 보완하는 시간으로 활용할 수 있음
      • 도메인 지식이 있는 기획자로부터 모델 개발에 대한 아이디어 얻기
      • 적합한 모델 선택과 방향성에 대한 피드백
    • 협력 관계인 사람들과의 소통을 통해 업무 완성도 높이는 시간

출처

데이터 사이언스의 정의, 현실, 연봉(Feat.쉬운 설명)
데이터 사이언티스트 현실
데이터 사이언티스트가 하는 일은?
Data Science vs Data Analytics: Which Should You Choose?
What Is a Data Scientist? Salary, Skills, and How to Become One

profile
2 B R 0 2 B

0개의 댓글