Full stack ML engineer : Deep Learning research를 이해하고 ML Product로 만들 수 있는 개발자
장점 : 재밌다. 빠른 트로토파이핑, 기술 간 시너지, 팀플레이에 도움, 성장의 다각화
단점 : 깊이가 없어질 수도 있음, 시간이 많이 들어감
<ML Product 개발 과정>
1. 요구사항 전달
고객사 미팅(B2B) + 서비스 기획(B2C)
요구사항 + 제약사항 정리
ML Problem으로 회귀
데이터 수집
Raw 데이터 수집
Annotation Tool 기획 및 개발
Annotation guide 작성 및 운용
ML 모델 개발
기존 연구 Research 및 내재화
실 데이터 적용 실험 + 평가 및 피드백
모델 차원 경량화 작업
실서버 배포
엔지니어링 경량화 작업
연구용 코드 수정 작업
모델 버전 관리 및 배포 자동화
ML Team
1 PM, 2 개발자, 2 연구자, 1 기획자, 1 데이터 관리자
Job
1. 실 생활 문제를 ML 문제로 formulation
2. Raw data 수집
3. Annotation Tool 개발
4. Data version 관리 및 loader 개발
5. 모델 개발 및 논문 작성
6. Evaluation tool 혹은 Demo 개발
7. 모델 실 서버 배포
Roadmap
1. Stack share
interface가 쉬워지는 방향으로 발전
개인적,사회적,인류적으로 AI 가 야기할 수 있는 문제
개인적
1. Bias (편향)
COMPAS - 미국의 판사들이 범죄자들의 재범가능성을 평가하는 것에 쓰는 AI system이 흑인일 수록 더 높은 Risk 값을 출력
Bias source
사회적으로 가지고 있는, 사람이 가지고 있는 편향이 알고리즘에 학습되면 똑같은 결과를 뱉는 것. 하지만 편향이 정확히 어디서 오는지는 알수 없음
labeling을 어떻게 정의할지
"좋은 직원"인지 판단하는 모델이라면 좋은 직원의 정의는 무엇일까? 이것을 정의하는 과정에서 편향이 들어갈 수 있음
Underrepresentation / Overrepresentation
데이터를 수집하는 과정에서 특정 집단에게만 데이터를 수집하는 경우
Feature Selection
coarse granularity. 지나친 일반화로 인한 편향. 어디 지역에 사는 사람은 어떻다
Proxies
ml은 패턴(relevant)을 찾아내는 속성이 있기 때문에 이것을 이용하여 편향을 만들 수 있음
2. Privacy
Singapore TraceTogether App - 이 사람이 누구와 언제 어디서 얼마나 있었는지 데이터를 central server가 가지고 있음 - 코로나 역학조사에 사용 - 개인의 아이디는 temprary id로 암호화 되어 누가누군지는 알수 없지만 정부는 다 알고 있음 - praivacy 문제
사회적
집값, 보럽, 신용 등급 등 important decision making에 AI를 사용 - Racial, Gender등 편향이 영향을 줄 수 있음
사회적 약자에게는 장점보다는 단점이 많다.
큰 언어 모델 : 가짜 뉴스, labor 관점 노동력 대체
이미지 모델 : deepfake
-> Manipulation detection 연구
인류적
1. 좋은 영향
Health : 당뇨 환자의 합병증 확률 detect, MRI/CT 영상 detection,
2. 나쁜 영향
environmental cost 가 굉장히 큼. 매우 큰 모델을 training할 때 가 많이 나옴.
-> 기후위기에 대해 AI가 할 수 있는 일도 있음
전기 사용량 예측, 온수 사용량 예측, Urban Computing, Industry 등
이미지 모델 bias 측정 metric
1. Careers in AI
논문 쓰고 싶으면 학교
상품/서비스 만들고 싶으면 회사
AI for X : AI로 기존 비즈니스를 더 잘하려는 회사
AI Centric : AI로 새로운 비즈니스를 창출하는 회사
Business : 사업 기획자, 서비스 기획자, 법/윤리학자
Engineering : ML Engineer, AIOPs Engineer
AI/ML 모델링은 팀 전체 업무의 일부
다양한 업무가 있는 만큼 팀 내에는 다양한 역할이 있음
직무 position에 대한 공통표현 정립이 안되어 있으므로 어떤 일을 하는지 꼼꼼히 알아보기
AI Modeling에 대한 수요는 점점 줄어드니 내가 어느 곳에 강점이 있는지 잘 알고 엣지를 살릴 수 있는 포지션을 찾는 것이 중요(AI+Backend, AI+Frontend, AI+Research)
2. How to start my AI engineering career
나 스스로에 대해 알기
나는 fundamental한 학문(ex: 수학, 물리학)을 좋아하고 잘하는가?
결과가 나오지 않아도 꾸준히 팔 수 있는 인내심이 있는가?
나는 AI/ML 모델링 뿐 아니라 그 과정에서 발생하는 모든 일(웹프로그래밍, 데이터 전처리)을
기꺼이 할 수 있는가?
→ 연구자
나는 비즈니스에 관심이 있는가?
내가 만든 모델을 사람들이 쓰면서 실생활에 변화가 있길 바라는가?
나는 AI/ML 모델링 뿐 아니라 그 과정에서 발생하는 모든 일(웹프로그래밍, 데이터 전처리)을
기꺼이 할 수 있는가?
→ 엔지니어
어떻게 나에 대해 알아볼까
어떤 역량?
역량 보여주기
짧은 길이의 이력서 내에 강력한 한방
실력을 보여줄 수 있는 "스펙"의 예시
1. 언어 모델링
주어진 문맥을 활용해 다음에 나타날 단어 예측
2. 언어 모델의 평가
GLUE 벤치마크 (General Language Understading Evaluation)
: 언어 모델 평가를 위한 영어 벤치마크, 자연어 생성 모델의 평가에 활용됨
이외에도 다양한 다국어 벤치마크가 있음