[직군 소개] 머신러닝 엔지니어 vs 데이터 사이언티스트

문혜성 (Ian)·2024년 12월 21일
0

직군 소개

목록 보기
1/1
post-thumbnail

해당 글은 github 출처인 "Team Neighborhood"내용을 참고하여 작성한 것입니다.

이 글은 컴퓨터 비전 관련 공부 준비를 하면서 과연 데이터 분야의 직군 중에서 내가 가는 길이 머신러닝 엔지니어인지 데이터 사이언티스트인지 정의하기 위해서 입니다. 직접 비교해보면서 해보는 것이 좋다고 생각했습니다.

1. 머신러닝 엔지니어

머신러닝 엔지니어의 역할은 요청에 따른 모델 생성 및 성능 향상 업무를 가지고 있다. 또한 개발 이후 실제로 적용하는 단계까지를 가지고 있다. 이러한 점에서 데이터 사이언티스트와 유사하지만 좀더 분석/연구 보다는 개발/실제 적용에 초점을 두고 있다.

(최근에는 MLOps 엔지니어라는 ML + DevOps 조합으로 Serving, 모델 파라미터, 데이터 처리등을 다루는 직업이 있는데 여기를 참고하시라.)

2. 데이터 사이언티스트

데이터 사이언티스트의 역할은 머신러닝 엔지니어와 마찬가지로 모델 생성 및 모델의 정확도를 개선, 성능 향상하는 역할 가지고 있지만, 머신러닝 엔지니어와 차이가 있다면 실제 서비스에 포커스를 맞추는 머신러닝 엔지니어와는 다르게 연구 개발에 초점을 두며 논문을 출판하는 경우도 있다. 또한 데이터 분석가들 처럼 통계적 모델링을 한다. 여러가지 경우로 머신러닝 엔지니어와 중복되는 점이 많지만 간단하게 차이점을 살펴보자

주요 업무 비교

머신러닝 엔지니어

  • 속한 도메인의 목적에 맞는 모델 생성 및 퍼포먼스 개선
  • 모델을 실제 서비스에 적용
  • 자연어 처리, 컴퓨터 비전, 음성 인식, 강화 학습

데이터 사이언티스트

  • 속한 도메인의 목적에 맞는 모델 생성 및 퍼포먼스 개선
  • 논문 리서치 및 출판, 통계적 모델링, 데이터 분석
  • 자연어 처리, 컴퓨터 비전, 음성 인식, 강화 학습

필요 역량

머신러닝 엔지니어

  • 논문 읽기 및 구현 능력 (수학 능력, 코딩 능력 등등...)
  • 머신러닝 딥러닝 이론 지식
  • 다양한 분야에서의 개발 역량
  • 도메인 관련 지식

데이터 사이언티스트

  • 테이터 분야에서 R&D 또는 데이터 분석 분야에 따라서 요구 역량 다름
  • 데이터 분석가/엔지니어 역량 필요
  • 논문 읽기 및 구현 능력 (수학 능력, 코딩 능력 등등...)
  • 머신러닝 딥러닝 이론 지식
  • 다양한 분야에서의 개발 역량
  • 도메인 관련 지식

실제 사례

공통

  • 실제 사례 분석 및 해결
    - 문제 정의 (이것은 분류 문제, 추가적으로 task 세분화)

    • 데이터 수집 (데이터 전처리, 데이터 보관장소 (Database 또는 cloud)
    • 모델 선정 및 학습 (베이스 라인 모델 성능 높힌 후 앙상블 또는 스태킹을 사용해 성능 개선)
    • 하이퍼 파라미터 튜닝 진행
    • 실제 서비스에서 사용시 어느 부분에 더 집중하여 성능을 올릴지 확인
  • 이 외에도 요구사항에 따른 문제 정의 및 해결

머신러닝 엔지니어

  • 딥러닝 모델을 실제 서비스에 적용시키기
    - Tensorflow Serving
    • Google AI Platform
    • RESTful API
    • Kafka, Redis 등

데이터 사이언티스트

  • 새로운 논문 출판

로드맵

공통

  1. 기초 (머신러닝/딥러닝, 선형대수, 파이썬, 딥러닝 프레임워크 (Tensorflow, Pytorch))
  2. 세부 분야 (내 경우는 컴퓨터 비전)
  • Stanford CS231n 2017

세부 분야는 다른 곳을 참조

  1. 논문 읽고 정리

프로젝트 진행

개인 프로젝트 진행

  • 문제 정의 데이터 수집, 모델 선정, 결론 도출(가장 중요)
  • 직접 데이터 크롤링 및 만들기

    가장 중요한 것은 '-해봤다'가 아닌 '경험을 통하여 얻은 생각과 결론' (이론으로 아는 지식은 사실이 아닐 수 있다)

Competition 참여

  • 데이터를 제공하는 Kaggle (대용량 데이터)
    - 하지만 이미 깔끔한 상태이기 때문에 더러운(?) 데이터를 다뤄보는 연습 필요
  • 참고 자료 (Kaggle Knowhow, Hello-Kaggle-KOR)
profile
기계공학에서 메카트로닉스, 프로세스 엔지니어, 그리고 헬스케어 머신러닝까지의 여정.

0개의 댓글