[Week1] Day1. OT

jjooki-entist·2022년 8월 23일

AI 데이터 사이언티스트 과정 수강 일기

목록 보기

1/23

야심차게 데이터 사이언티스트가 되는 것을 목표로 삼고 데이터 사이언스 글을 연재하려다 보니 부족한 지식이 너무 뼈저리게 느껴져서 지원한 패스트캠퍼스 부트캠프..!

마음을 다잡고 퇴사 후 내 인생 플랜을 이루기 위한 첫 스텝으로 국비교육을 신청했는데, 세상에 자소서에 코딩테스트에 AI면접까지 지원과정이 무슨 취준인 줄 알았다.
서류검토와 면접관만 경험해본 나에게는 조금 색다른 경험이었다. 생각보다 면접보는 것은 쉽지 않았다.
새삼 나에게 면접본 수십명의 사람들에게 드릴다운 질문을 통해 압박감을 준 내 자신이 부끄러워졌다..ㅎㅎ

다행히 운좋게도 원큐에 합격하게 되었다!

합격 후 설레는 마음으로 어떤 수업과 프로젝트들이 날 기다리고 있을지 기대하며 OT에 참석했다.

그래서 이번 시리즈는 [AI 데이터 사이언티스트 취업 완성 과정]동안 경험하고 배운 모든 것들을 정리할 계획이다. 추후에 지원하시는 분들이 보시고 많은 도움이 되었으면 하는 바람이다.

0. OT가는 길

일단, 교육을 듣기 전 사전에 공지받은 교육에 관한 정보는 다음과 같았다.

장소 : 강남역 4번출구 도보 10초 거리(!) 미왕빌딩 11층 패스트캠퍼스 C강의실
시간 : 월~금 / 13:00 ~ 22:00
기간 : 6개월
방식 : 온/오프라인 블랜디드

건물 위치는 기가 막힌다! 지하철을 타고 4번 출구 나와서 옆을 보면 있는 건물이 바로 패캠이 있는 빌딩이다.
(물론, 4번 출구는 2호선에서 내려서 5분 정도 걸어야 하는 것이 함정)
그렇게 도착한 건물은 15~20층 정도의 건물인데 엘레베이터는 딸랑 2대...
점심대도 아닌데 엘레베이터가 층마다 다 서서 한참 기다렸다ㅠㅠ
아무래도 빌딩에 사무실들이 많아서 그런 것 같다.

그렇게 도착한 강의실에서 3시에 맞춰 사람들이 점점 가득 찼다.
그리고 3시가 되어 HRD-Net 시스템을 활용한 QR출석체크를 진행하였다.

1. Intro

HRD-NET(K-digital training) 수료기준: 총 수업일수의 80% 이상 출석
패스트캠퍼스 수료 기준: 3가지 기준 합 60점 이상

패스트캠퍼스 수료기준을 만족한 수강생에게는 특별한 혜택이 제공된다는 사실..!

전체 출석률: 30%
워크시트(수업내용 정리노트): 30%
프로젝트: 40%

<패스트캠퍼스 수료혜택>
- 추가 온라인 강의 제공
- 패스트러너 커뮤니티
- 추가적인 커리어 서비스

2. 교육 커리큘럼 소개

커리큘럼은

데이터분석
머신러닝
딥러닝
딥러닝 트랙학습

으로 알차게 구성되어 있다.

그 중에서 딥러닝 트랙학습은

NLP(자연어처리)
CV(컴퓨터비전, 이미지처리)
RS(추천시스템)

세가지 중 하나의 알고리즘을 선택해 집중적으로 파고드는 방식이라고 한다.
개인적으로는 CV를 선택할 예정이다.

기본적으로 수업은 패캠 온라인 강의 + 강사분들의 현장 강의로 구성되어 있다.
온라인이 기본이다 보니 온라인으로 참여할 때에는 메타버스 시스템을 활용한다.

게더타운에서 다른 수강생들과 함께 스터디도 할 수 있고, 현장강의도 온라인으로 참여할 수 있다.
싸이월드 감성의 그래픽 디자인은 향수를 불러일으킨다.ㅎㅎ

이 외에도 워크시트 작성, 주차별 학습 내용을 조원들과 공유하고 피드백하는 랜덤 조별회고를 매주 진행한다.

3. DS(Data Scientist)란?

Data관련 개발직군은 3가지로 분류된다.

Data Engineer
Data Scientist
Data Analysist

이 세 직종의 차이는 간단하게 말하자면, 데이터를 옮기고 정제하고 쌓는 사람이 엔지니어, 그 데이터를 분석하는 모델을 설계하고 돌리는 사람이 사이언티스트, 분석값들을 해석하고 사업지표를 수립하고 경영진을 설득하는 사람이 분석가라고 이해하면 된다.

DS는 엔지니어와 분석가 그 중간 정도의 포지셔닝을 가지고 있기 때문에 두 직군이 어떤 일을 하는지에 대한 이해는 필수라고 할 수 있다.

이것이 DS에게 요구되는 능력치이다.
조금은 이 직군에 대해 알고 시작했기 때문에 놀랍지는 않지만, 생각보다 만능이어야 한다는 사실을 알게 되었다.
어디선가 고생길이 열리는 소리가 들린다. 내 길인 것 같다..ㅎㅎ

4. 아이스브레이킹

드디어 자기소개의 시간이 왔다. 세상 제일 부담스러운 시간이다.
그간 많은 VC들 앞에서 얘기할 때도 매번 새롭게 떨리던 그 순간이다.
세상에 다행히도 이번에는 내가 나를 소개하는 것이 아니라 임의로 정해진 내 파트너를 소개하는 것이었다.
매니저님들 감사합니다.

그리고 봤던 브랜드 퀴즈에서 우리팀이 압도적인 1등을 했다!
젊은 팀이라서 그런지 순발력이 좋다.
이 시간 덕분에 수강생 분들과 친해질 수 있어서 좋았다ㅎㅎ

5. Understanding AI & DS:

Final goal of this edu course -> Kaggle Competition

기술 입증 방법:
1. 프로젝트 진행 (회사)
2. 연구 (학회 등)
3. 캐글

취직 시 가장 중요한 기술 입증 방법은 프로젝트 진행 경험과 케글 경험이다.
퇴사 후 혼자 독학하면서 케글 문만 살짝 두드려봤는데 아직 시작할 때는 아닌 것 같았다.
이번 교육과정이 끝날 때는 당당하게 케글 프로젝트 하나를 끝마쳤으면 좋겠다!

5-1. What is AI?

인공지능은 가장 큰 범주의 개념으로 초기 AI의 개념에 대해 알고 싶다면 필자의 포스팅 'AI란 무엇인가?'을 참고하면 좋다.
간단하게 말하자면, 인간의 신경구조를 그대로 컴퓨터에 구현하겠다는게 컨셉이다.
AI 발전의 핵심 목표는 사람만큼 똑똑한 인공지능(Strong AI)을 만드는 것이다.

AI > ML > Deep Learning 순으로 AI는 점차 진화를 거듭해왔다.
그 중 데이터를 직접 가르치지 않아도 스스로 학습하는 딥러닝이 세상에 처음 주목을 받은 것은
"ILSVRC(ImageNet Large Scale Visual Recognition Challenge)"다.
이미지넷이라는 이미지 데이터셋을 분류하는 정확도를 가지고 대결하는 대회로 사람이 평균 4퍼센트 대의 오류를 낸다고 한다. 2010년 첫 대회 우승모델의 오류는 28%였다.
이 대회에서 2012년 AlexNet이 처음으로 CNN-based Algorithm(딥러닝 모델)을 활용하여 16%로 확 오류를 낮추게 되었고, 놀랍게도 2015년 ResNet이 3.57%로 사람을 처음으로 이겼다.
이 사건은 학계의 관심을 받기 충분했고, AI분야의 연구 속도가 급격하게 빨라지는 계기가 되었다.

물론 대중에게 딥러닝이 알려진 대표적인 사건은 2016년 3월에 펼쳐진 "이세돌 vs 알파고"다.
지금이야 이세돌씨가 인공지능을 유일하게 이겨본 사람이 되었지만, 당시만 해도 인공지능한테 월드클래스 바둑기사가 처참히 지는 것을 보고 많은 사람들이 충격을 받았다.
이 사건을 계기로 전세계 사람들은 딥러닝의 어마무시한 성능을 알게 되었고, AI 시장은 급격하게 성장을 하게 된다.

현재 Strong AI를 향해 진화하고 있으며, Multi-modal이 그 해답으로 여겨진다.

Multi-modal이란, 이미지-음성, 이미지-텍스트 등 두 개 이상의 도메인을 다루는 다중 모델을 뜻한다.

<대표모델>

Clip (OpenAI)
DALL-E (OpenAI)
Gato (DeepMind)

컴퓨터에게 이미지를 주고 자막을 다는 이미지 캡처링(Clip), 텍스트를 그림으로 해석하여 그려주는 AI 아티스트(Dalle), 600개의 테스크를 병렬처리하는 기술(Gato) 등 몇년 전만 해도 상상도 못한 일들이 펼쳐지고 있다.
~~역시 구글, 머스크 형님~~

개인은 저런 대기업들의 모델 성능을 따라가기엔 돈도 능력도 없다. 다행인 사실은 저 모델들이 오픈소스라는 점이다. 훌륭하신 기부천사시다.
이미 고성능모델은 실리콘밸리 형님들이 다 해놨기 때문에 개인은 모델 성능을 높이는데에 집중하는 것이 아닌 그러한 모델을 어떻게 활용할지에 집중하는 것이 훨씬 효율적이고 좋다.
이것이 현재 AI 스타트업의 트렌드라고 할 수 있다.

그럼 천상계 이야기에서 다시 돌아오자.
대체 컴퓨터는 어떻게 학습을 하는가? 프로세스를 이해하는 것이 AI의 핵심이다.
그래야 우리가 컴퓨터를 가르치치 않겠는가?

우선, 학습 방식의 컨셉 자체는 비슷하지만 방법론과 목표가 조금 다르다.
사람은 메타인지(자신의 생각을 판단하는 능력)가 가능하지만, 멍청한 컴퓨터는 그게 될리가 없다.
~~사실 멍청한 건 나..~~
계산된 결과로 계산된 뭔가를 내는 것이 컴퓨터다. 그리고 계산만큼은 이미 인간의 능력을 한참 뛰어 넘었다. 우리는 이 컴퓨터의 계산능력을 이용만 하고 단물 쪽 빨아먹고 당근에 팔면 된다!

5-2. What is Data Science?

데이터 사이언스에서 사이언스라는 이름이 붙은 이유는 말 그대로 과학이기 때문이다.
과학은 실험을 통한 결과, 연역적인 과정, 모든 논리 과정을 다 이해하려면 연구를 해야하고 실험을 통한 검증으로 문제를 어떻게 풀까를 고민하는 과정이다.
수학, 통계, 과학, 산업 공학, 컴퓨터 공학, 등 자연대, 공대에서 배우는 많은 것들을 다 알아야 하는 능력자들만이 데이터 사이언스 분야에서 살아남을 수 있다.

우리는 모르는 것을 알아내고자 연구한다.
ex) 선거 결과 예측, 모르는 걸 예측하고 싶어서 수학을 쓰는 통계
기존에 있는 것으로 파악하는 것은 검색이라고 표현한다.
데이터는 이미 데이터베이스에 다 들어가 있다.
단순히 서칭하는 것은 컴퓨터로 쉽게 할 수 있는 세상이다.
모르는 걸 알고자 하려면 데이터 사이언스가 필요하다.

예전에는 모르는 걸 알기 위해서 사람을 갈아 넣어서 회귀분석, 검정통계량분석 등 다양한 방식으로 법칙을 만들고 현상간의 인과관계를 분석해왔다. 필자가 학부시절 배운 것들이 전부 이러한 과학적 해석방법론이다.
하지만 이젠 이런 구시대적인 방식으로는 데이터가 흘러넘치는 이 시기에 모든 것을 다 해석할 수는 없다.

'우리가 실험, 관측을 해서 얻은 데이터를 갖고 예측을 해야하는데 사람의 머리로는 도저히 모르겠으니, 컴퓨터 너가 좀 해줘!'
여기서부터 AI 데이터 사이언스 분야가 발전하기 시작한다.

요즘은 데이터가 GB수준은 우습게 넘기고 개인이 TB단위의 저장소를 쓰는 시대다.
기업은 PB단위의 데이터를 다루고 이를 처리하려면 단순한 방식으로는 강산이 한 번 변할 때까지 일을 끝낼 수 없다.
빅데이터(일반적으로 페타 스케일) 분석은 결국 내가 할 수 있는게 아니라 자동화된 규칙을 찾아야 하고, 이를 효율적으로 오류가 적게 분석을 한다는 게 굉장한 미션이다.
일반 알고리즘은 진작에 나가 떨어지고, 머신러닝으로 해결하고자 했으나 '수천만, 수억개의 데이터를 언제 다 라벨링합니까...'라는 이슈로 인해 결국 딥러닝이 빅데이터 분석의 메인스트림이 되었다.
그래서! 결국엔 코딩이 매우 중요하다는 뜻이다.
엑셀과 SQL도 데이터 분석을 할 수는 있지만 한계가 명확하기 때문이다.

5-3. How to apply?

1) Fraud Detection (사기 거래 방지)

2) Customer Segmentation (고객 유형별 세분화)

고객 패턴 분석은 마케팅에서 자주 하는 일이다.
물론 창업하기 전에 기획단계에서 필수적으로 해야하는 일이다.
그래야 내가 어떤 고객들한테 어떤 제품을 팔지 결정되기 때문이다.
규모가 큰 기업들은 몇천만건의 고객0데이터가 쌓여있기 때문에 컴퓨터에게 주어서 해결하게 하는 것이 좋다. ~~사람한테 시키면 퇴사율이 급증할 수 있다.~~

보통 클러스터링 모델을 많이 활용한다.
식료품 거래 내역 or 의류 거래 내역 중 하나의 프로젝트을 할 예정이라고 한다.

클러스터링 문제는 정답이 없다. 설명은 결과를 보고 사람이 해석하고 설명해야 하기 때문에 굉장히 어렵다. 기법에 따라서도 결과가 완전 다르니 뭐가 답인지도 모르는 경우가 태반이다.
컴퓨터는 그저 기계다. 언제나 모델을 잘 만들고 잘 돌려도 클러스터 제로, 토픽 제로 같은 싸늘한 결과값만 내 앞에 가져다 줄 뿐이다.

그걸 해석하고 비즈니스로 연결짓는 것은 ~~(경영진과 맞다이 뜨는 건)~~ 사람의 몫이다!
그렇기 때문에 Domain knowledge가 매우 중요하고 데이터에 대한 이해 또한 중요하다.

3) Youtube Recommendation

5-4. Go Further?

취업을 원한다면 JD(Job Description)을 먼저 확인하는 것이 좋다.
해당 분야의 스킬셋 트랜드를 JD에서 확인할 수 있다.
인사 총괄을 담당하는 동안에 채용트랜드를 확인하기 위해 수십개의 스타트업의 JD를 파악한 경험이 있는 바, JD로 트랜드를 파악하는 것이 중요하다는 점은 몇 번 강조해도 모자라다.
참고로 두루뭉술하게 인성에 관련된 자격요건사항도 그냥 쓴 건 절대 아니라는 사실을 명심하길!

직무 별 JD 중, [지원자격/필요역량]을 확인하고 아니다 싶으면 바로 뒤로가기하면 된다.

서류는 잘 붙는데 반해, 생각보다 코테(코딩테스트)에서 많이 떨어진다고 한다. 공부를 열심히 하는 것은 좋으나 코테를 버리면 취업을 버리는 것을 의미하니 코테도 짬짬이 공부해야겠다.

강사님 뇌피셜(?) 체감 코테 난이도: S.W 엔지니어 > 머신러닝 엔지니어 > 데이터 엔지니어 > 데이터 사이언티스트 >데이터 분석가

엔지니어가 직무 이름에 붙으면 코테가 어려워진다. 이건 팩트다.

데이터 직군 세 가지는 위에서 언급했듯이 3가지다. 세 직군의 특성은 다음과 같다.

DE: 데이터 파이프라인 설계가 메인으로 백엔드 개발자에 가까움
DS: 우리의 목표!, 모델링의 노예
DA: 비즈니스 분석가에 가까움

DS가 주로 하는 업무는 모델링, EDA, 대시보드 제작 등이다. 특히, 이 중 모델링의 노예가 될 가능성이 농후하다. 그렇지만, EDA, 대시보드 제작도 그에 준하게 중요하다.

JD 확인 후, 기업체에서 원하는 스킬셋을 확인 후, 그에 맞춰 준비하면 된다.

엔드 투 엔드 경험은 스타트업에서나 가능하다.
팩트다.
이건 필자의 실제 창업 경험담이다.

대기업 면접에서는 최소한 썰을 풀 수 있어야 한다.
케글을 하면 엔드 투 엔드가 간접적으로 다 들어가 있어서 좋아하니 참고하도록 하자.
가공, 모델링을 통한 과정이 포함되어있고 난이도가 상당하기 때문에 케글이 공인자격증처럼 된 것이다.
6개월을 어떻게 보내느냐 보다는 내가 할 수 있는 걸 6개월 동안 할 수 있는지가 중요하다.

물론, 코테에서 떨어지면? 아무 의미 없다.
코테도 열심히 준비하자.
코딩을 잘하는 것과 분석을 잘하는 것은 다른 이야기다.

포폴에는 하나의 프로젝트를 상세하게 적는 것이 좋다. 프로젝트에 체력과 시간을 갈아넣으면 쓰고 싶은 내용이 엄청 많아진다.

문제정의-가설설정-실험설계 및 검증-결과

위 프로세스를 바탕으로 인상깊은 프로젝트 경험을 아주 구체적으로 적는게 좋다.
2주를 갈아 넣으면 그런 썰풀 것들이 생길 수 밖에 없다.

이렇게 1일차 수업이 마무리되었다. 이번 포스팅도 여기서 마무리하도록 하겠다.

남은 6개월동안 화이팅!

jjooki-entist

데이터 사이언티스트를 꿈꾸는 3년차 제품총괄입니다.

다음 포스트