데이터 직무의 포트폴리오

Syl·2024년 2월 25일

About Data Science

목록 보기
5/10

데이터 전문가가 되기 위해서는 학습과 프로젝트를 같이 진행하는 것이 좋다. 다시 말해, 프로젝트를 기반으로 학습이 이루어지는 것이 효과적이다. 본문에서는, 이러한 프로젝트를 담을 수 있는 공간인 포트폴리오에 대해 정리해보고자 한다.

포트폴리오, 어디에? 어떻게?

요새는 사이언티스트들도 포트폴리오를 많이 가지고 있다고 한다. Github(테크니컬), Kaggle(노트북 메뉴), Medium(교육 목적 웹사이트), Blog(개인 블로그) 등에 자신의 포트폴리오를 만드는데, 특히 블로그가 비주얼적인 임팩트와 가독성이 있다는 장점이 있다. 예컨대 Wix, Squarespace 유료 어카운트를 사용해 개인 웹사이트를 제작할 수 있다.

포트폴리오의 장점

위에 언급한 툴이나 사이트 등을 이용해 자신에 대한 설명과 본인이 수행한 프로젝트(목적, 역할, 무엇을 사용하고 무엇을 찾았는지, 결과 등)에 대한 심플한 정리, 퍼스널 프로젝트(퍼블릭 데이터, 예 - tableau 사용 , 오버뷰) 등을 시각화할 수 있다. 또한 나에 대한 긍정적인 이미지를 어필할 수 있도록 취미나 meetup(커뮤니케이션 역량) 등을 언급해둘 수 있다. 따라서 결론적으로, 면접을 더욱 밀도있게 진행할 수 있다. 작업물에 대한 질의응답을 할 수 있고, 긍정적인 이미지를 심어줄 수 있다.

이력서에 많이 제출되는 포트폴리오 프로젝트

여기에는 주로 공공 데이터를 활용하거나 대회에 출전한 프로젝트, 부트캠프 필수 프로젝트들이 있다. 학습 시에 큰 흐름을 파악하기 좋고, 좋은 결과를 얻으면 임팩트가 크다. 기술적 역량(코드, 전처리 등)을 강조할 수 있다. 다만, 다음과 같은 단점이 있다.

-공공 데이터 분석 프로젝트: 구하기 쉬운 데이터는 2016년부터 이미 비슷한 프로젝트를 도출한 사람이 많을 수 있다. 지원하려는 회사와 무관하거나 “어떤 action을 해야 할까”를 도출하기 어려운 데이터의 경우 유의미하지 않다. 자신만의 이야기기 없을 수 있다.

-대회(캐글, 데이콘 등) 참여: 특정 데이터 대회를 많이 참가한 경우 비슷한 내용이 많이 보이고 희소성이 떨어질 수 있다. 현업에서는 문제 정의를 한 후 업무를 진행하지만, 대회는 문제가 이미 정의된다.

프로젝트 역시 상향 평준화가 계속 이루어지고 있는 지금, 그렇다면 어떻게 해야 할까 ?

면접관이 한 번 더 보게 되는, 희소성 높고 흥미로운 프로젝트를 만드는 것이다. 크게 두 가지 방향으로 정리할 수 있다.

매력적인 프로젝트

1) 직접 문제를 정의하고, 데이터 수집을 직접하면서 문제를 해결한 프로젝트

-일상에서 겪는 문제, 자신이 관심 있는 문제를 해결하는 프로젝트로, 그 과정에서 데이터를 수집하고 활용한다.
-‘데이터’에서 시작하는 게 아니라 ‘문제’에서 시작하는 프로젝트라는 것이 핵심이다. 지금부터 고민하하고 준비하는 습관이 필요하다. 예) 강남 출근길 판교역에서 내릴 사람 예측하기

2) 회사에서 풀고 있는 문제와 유사한 프로젝트를 수행해본다.

-어떤 회사를 가고 싶은지, 어떤 산업군으로 가고 싶은지를 정했다면 그에 맞는 프로젝트를 구성한다. 이때 크롤링 등을 통해 수집 데이터가 괜찮은지 확인하고, 왜 프로젝트를 했는지, 해결하기 위한 방식 중 무엇을 선택했는지 나타낸다. 예) 배달 서비스 회사라면 배달 서비스 관련 데이터, 모빌리티 회사라면 모빌리티 데이터(차량에 iot 센서 부착해 수집) 등
-데이터 로그 설계를 해본 경험(Google Analytics 등), AB Test를 직접 실행한 경험은 실무에서 데이터 분석할 때 많이 진행하는 방법이다. 시간과 리소스가 많이 필요하기 때문에 로그 설계는 개인 블로그를 만들어서 할 수도 있다.
-회사에서 어떤 일을 하는지 많이 알고 있으면 좋다. 자주 나오는 단어, 자주 겪는 문제를 파악하고 풀기를 시도한다.
-회사 특정보다는 산업군 중심으로 준비하는 것이 유리하다. 나, 회사, 프로젝트의 교집합을 만들면 좋다.

3) 현업의 프로젝트 사이클을 고려한다.

-다시 진행해보기, 작게 여러 번 반복하기는 희소성 높은 프로젝트를 만들기 좋은 방법이다.
현업에서는 프로젝트가 일정 주기로 재진행된다. 데이터 분석하고 시기가 지나 새 데이터가 들어오기 때문이다. 예) 기존에 만든 ML 모델의 성능을 더 개선하기 위해 2차 프로젝트가 진행되고, 일단 빠르게 진행되는 룰베이스(규칙 기반) 모델을 만들고 그. 후 머신러닝 모델을 접근한다. 이와 달리 학생들의 프로젝트는 일회성인 경우가 많다. 한 번 하고 다시 수정하는 경우가 적다. 그러니 진행했던 프로젝트를 몇 개월 후 지식 더 쌓인 뒤 다시 들여다 보고 리팩토링하자. 점진적으로 개선하는 방법 또는 몇 달 간 진행하는 방법으로 프로젝트를 진행해보자.

_
참고 자료:
https://www.youtube.com/watch?v=6XP9tIYph_Q
https://www.youtube.com/watch?v=p4DuJ77p6Ko&t=1s

마무리

포트폴리오에 관하여:

나는 어떤 주제와 형태로 포트폴리오를 만들고 싶은지 고민이 된다. 나 역시 앞서 정리한 바처럼 프로젝트를 중심으로 포트폴리오를 제작하고 싶다. 나의 관심 주제에 대해서, 내가 해보고 싶은 프로젝트에 대해서 더 많은 생각이 필요할 듯하다. 개인적으로 데이터 분석보다 ML/DL, AI쪽에 더 관심이 가는 만큼, 이와 관련된 프로젝트를 할 수 있다면 좋겠다는 생각이 든다. 장기적으로 자연어 처리 기술 개발과 관련된 프로젝트를 진행해보고 싶다.

키우고 싶은 역량에 관하여:

데이터 직무 채용 공고를 보며 우선적으로 기술적 역량을 키워야겠다는 마음이 컸는데, 단순 기술적 역량뿐 아니라 기업의 입장에서 무엇이 필요할지, 문제 찾고 어떻게 해결할지 등을 사고하는 역량도 그에 못지 않게 중요하겠다는 생각이 들었다. 프로젝트를 통해 이러한 역량들을 잘 녹여낼 수 있다면 좋겠다.

나의 관심/흥미에 관하여:

현재와 같은 수준의 인공지능이 개발되기 전, 사람들은 기술이 발달하더라도 가장 나중에 사라질 직업이 바로 예술, 창의 분야라고 입을 모았다. 하지만 지금은? 인공지능이 가장 빠르게 발을 딛은 분야 중 하나가 되었다. 우리는 인공지능에게 시를 써달라고 하고, 그림을 그려달라고 하고, 대화를 시도한다. 나는 이 점이 몹시 흥미로웠다. 인공지능에게 감정이 있어 보인다는 말까지 들리기 시작하는 것 같다. 이 부분에 대해 좀 더 연구해보고 프로젝트를 해본다면 재밌겠다는 생각이 든다.

해보고 싶은 프로젝트에 관하여:

기업 채용 공고에서 오픈소스 LLM 모델, 자연어처리 모델 사용 경험 등을 언급하고 있었어서, 공부를 하며 이런 모델들을 사용해볼 수 있는 프로젝트를 경험해보고 싶다. 그 외에도 생각나는 떠오르는 아이디어들을 적어보고 마무리 하고자 한다.

1) 텍스트와 감정 - 인공지능의 감정적인 반응을 설계하는 것에 대한 프로젝트(HCI), 문맥에 관련된 연구, 현대인의 멘탈 헬스 케어
2) 자동 자막 생성 시스템 개선 - 다국적 사용자 경험을 향상시킬 목표로 자막의 정확성, 신뢰성, 자연스러움에 관한 프로젝트(자연어 처리)
3) 음성 인식 기술 - 실시간 처리 성능, 음성을 텍스트로 변환, 음성 데이터 학습에 관한 프로젝트
4) 언어 교육용 애플리케이션/언어 학습 보조 시스템 피드백 연구 - 발음 및 대화 능력 향상 추가, 기업이니 만큼 상업적인 측면이 존재하면서도 사용자의 불만이 적도록 하려면 어떻게 해야할지에 관한 프로젝트

0개의 댓글