[U stage Day 36] 특강 2

먼지감자·2021년 9월 24일

boostcamp

AI Boostcamp 2기

목록 보기

29/48

이준엽 - Full Stack ML Engineer

Full stack ML engineer : Deep Learning research를 이해하고 ML Product로 만들 수 있는 개발자

장점 : 재밌다. 빠른 트로토파이핑, 기술 간 시너지, 팀플레이에 도움, 성장의 다각화
단점 : 깊이가 없어질 수도 있음, 시간이 많이 들어감

<ML Product 개발 과정>
1. 요구사항 전달
고객사 미팅(B2B) + 서비스 기획(B2C)
요구사항 + 제약사항 정리
ML Problem으로 회귀

데이터 수집
Raw 데이터 수집
Annotation Tool 기획 및 개발
Annotation guide 작성 및 운용
ML 모델 개발
기존 연구 Research 및 내재화
실 데이터 적용 실험 + 평가 및 피드백
모델 차원 경량화 작업
실서버 배포
엔지니어링 경량화 작업
연구용 코드 수정 작업
모델 버전 관리 및 배포 자동화

ML Team
1 PM, 2 개발자, 2 연구자, 1 기획자, 1 데이터 관리자

Job
1. 실 생활 문제를 ML 문제로 formulation
2. Raw data 수집
3. Annotation Tool 개발
4. Data version 관리 및 loader 개발
5. 모델 개발 및 논문 작성
6. Evaluation tool 혹은 Demo 개발

7. 모델 실 서버 배포

Roadmap
1. Stack share
interface가 쉬워지는 방향으로 발전

조언
시작이 반이다? → 시작이 80% 다
모든 Stack이 공통적으로 시작이 가장 어렵습니다.
익숙한 언어 + 가장 적은 기능 + 가장 쉬운 Framework 로 시작하세요
처음부터 너무 잘 만들려고 하지 마세요. 최대한 빨리 완성하세요
전문 분야를 정하세요!
새로운 것에 대한 두려움 없애기 위해 반복적으로 접하세요

(특강) 오혜연 - AI Ethics

개인적,사회적,인류적으로 AI 가 야기할 수 있는 문제
개인적
1. Bias (편향)
COMPAS - 미국의 판사들이 범죄자들의 재범가능성을 평가하는 것에 쓰는 AI system이 흑인일 수록 더 높은 Risk 값을 출력

Bias source
사회적으로 가지고 있는, 사람이 가지고 있는 편향이 알고리즘에 학습되면 똑같은 결과를 뱉는 것. 하지만 편향이 정확히 어디서 오는지는 알수 없음
labeling을 어떻게 정의할지
"좋은 직원"인지 판단하는 모델이라면 좋은 직원의 정의는 무엇일까? 이것을 정의하는 과정에서 편향이 들어갈 수 있음
Underrepresentation / Overrepresentation
데이터를 수집하는 과정에서 특정 집단에게만 데이터를 수집하는 경우
Feature Selection
coarse granularity. 지나친 일반화로 인한 편향. 어디 지역에 사는 사람은 어떻다
Proxies
ml은 패턴(relevant)을 찾아내는 속성이 있기 때문에 이것을 이용하여 편향을 만들 수 있음

2. Privacy
Singapore TraceTogether App - 이 사람이 누구와 언제 어디서 얼마나 있었는지 데이터를 central server가 가지고 있음 - 코로나 역학조사에 사용 - 개인의 아이디는 temprary id로 암호화 되어 누가누군지는 알수 없지만 정부는 다 알고 있음 - praivacy 문제

사회적
집값, 보럽, 신용 등급 등 important decision making에 AI를 사용 - Racial, Gender등 편향이 영향을 줄 수 있음

사회적 약자에게는 장점보다는 단점이 많다.

큰 언어 모델 : 가짜 뉴스, labor 관점 노동력 대체
이미지 모델 : deepfake

-> Manipulation detection 연구

인류적
1. 좋은 영향
Health : 당뇨 환자의 합병증 확률 detect, MRI/CT 영상 detection,

2. 나쁜 영향
environmental cost 가 굉장히 큼. 매우 큰 모델을 training할 때 $CO_2$ 가 많이 나옴.

-> 기후위기에 대해 AI가 할 수 있는 일도 있음
전기 사용량 예측, 온수 사용량 예측, Urban Computing, Industry 등

이미지 모델 bias 측정 metric

박은정 - AI 시대의 커리어 빌딩

1. Careers in AI
논문 쓰고 싶으면 학교
상품/서비스 만들고 싶으면 회사

AI for X : AI로 기존 비즈니스를 더 잘하려는 회사
AI Centric : AI로 새로운 비즈니스를 창출하는 회사

Business : 사업 기획자, 서비스 기획자, 법/윤리학자
Engineering : ML Engineer, AIOPs Engineer

AI/ML 모델링은 팀 전체 업무의 일부
다양한 업무가 있는 만큼 팀 내에는 다양한 역할이 있음

직무 position에 대한 공통표현 정립이 안되어 있으므로 어떤 일을 하는지 꼼꼼히 알아보기

AI Modeling에 대한 수요는 점점 줄어드니 내가 어느 곳에 강점이 있는지 잘 알고 엣지를 살릴 수 있는 포지션을 찾는 것이 중요(AI+Backend, AI+Frontend, AI+Research)

2. How to start my AI engineering career
나 스스로에 대해 알기

나는 fundamental한 학문(ex: 수학, 물리학)을 좋아하고 잘하는가?
결과가 나오지 않아도 꾸준히 팔 수 있는 인내심이 있는가?
나는 AI/ML 모델링 뿐 아니라 그 과정에서 발생하는 모든 일(웹프로그래밍, 데이터 전처리)을
기꺼이 할 수 있는가?
→ 연구자
나는 비즈니스에 관심이 있는가?
내가 만든 모델을 사람들이 쓰면서 실생활에 변화가 있길 바라는가?
나는 AI/ML 모델링 뿐 아니라 그 과정에서 발생하는 모든 일(웹프로그래밍, 데이터 전처리)을
기꺼이 할 수 있는가?
→ 엔지니어

어떻게 나에 대해 알아볼까

AI 인턴 빨리 해보기
AI competition
최신 논문 재현

어떤 역량?

커뮤니케이션
컴퓨터 공학에 대한 기본적인 이해와 sw engineering 능력
최신 기술 빠른 습득을 위한 영어 실력
soft skill : 끈기, 열정, 팀워크 등

역량 보여주기
짧은 길이의 이력서 내에 강력한 한방
실력을 보여줄 수 있는 "스펙"의 예시

Coding competitions: ICPC 등 규모가 큰 프로그래밍 대회에서 입상 경력이 있는지
AI competitions: Kaggle 등 규모가 큰 AI 관련 대회에서 수상한 경력이 있는지
Publication record: NeurIPS 등 AI 관련 주요 국제 학회나 워크샵에 1저자로 출판한 논문이
있는지
서비스 경험: 경력자의 경우 실제로 라지 스케일 서비스를 다뤄봤으며 그 과정을 주도했는지
다른 회사 경력: 다른 AI 관련 회사의 근무 경험과 성과

(특강) 박성준 - 자연어 처리를 위한 언어 모델의 학습과 평가

1. 언어 모델링
주어진 문맥을 활용해 다음에 나타날 단어 예측

양방향 언어 모델링
사람이 읽는 순서대로 단어를 보는 모델 + 역방향으로 뒤에부터 보는 모델
ELMo
BERT

2. 언어 모델의 평가
GLUE 벤치마크 (General Language Understading Evaluation)
: 언어 모델 평가를 위한 영어 벤치마크, 자연어 생성 모델의 평가에 활용됨

이외에도 다양한 다국어 벤치마크가 있음

먼지감자

ML/AI Engineer

이전 포스트

[U stage day 35] 특강

다음 포스트