그래, 난 데이터 과학자야. 그래, 네가 제목을 제대로 읽었잖아. 하지만 누군가는 이걸 말해야 했어.우리는 데이터 과학이 21세기의 가장 섹시한 직업이며 데이터 과학자로서 당신이 벌 수 있는 매력적인 금액에 대한 많은 이야기를 읽었고, 그것이 절대적인 꿈의 직업처럼 보일 수 있다.이 분야에는 복잡한 문제를 해결하기 위해 꾀를 부리는 고도로 숙련된 사람들이 많이 있다는 점(그렇다, '기발'하는 것은 긍정적인 일이다), 이 직업에 대해 사랑해야 할 모든 것이 있다.
그러나 사실은 파이낸셜타임스가 이 기사에서 언급한 바와 같이 데이터 과학자는 일반적으로 "새로운 직업을 찾는데 일주일에 1~2시간을 소비한다"는 것이다.게다가, 이 기사는 "머신 학습 전문가들이 새로운 직업을 찾고 있다고 말한 개발자 목록에서 14.3%로 1위를 차지했다"고 언급하고 있다.데이터 과학자는 13.2%로 근소한 차이로 2위였습니다."이들 데이터는 6만4000명의 개발자를 대상으로 한 조사에서 스택 오버플로우가 수집한 것이다.
나 역시 그런 위치에 있었고 최근 스스로 데이터 과학 직업을 바꾸었다.
그렇다면 왜 이렇게 많은 데이터 과학자들이 새로운 직업을 찾고 있는 것일까?
내가 그 질문에 대답하기 전에 나는 여전히 데이터 과학자라는 것을 분명히 해야 한다.전반적으로, 나는 그 일을 사랑하고, 재미있고, 자극적이고, 보람을 느낄 수 있기 때문에 다른 사람들이 데이터 과학자가 되기를 열망하는 것을 단념시키고 싶지 않다.이 기사의 목적은 악마의 주창자 역할을 하며 그 일의 부정적인 측면을 폭로하는 것이다.
내가 보기에, 많은 데이터 과학자들이 그들의 직업에 불만족스러워하는 4가지 큰 이유가 여기에 있다.
빅데이터는 10대 성(性)과 같다. 모든 사람이 그것에 대해 이야기하고, 아무도 그것을 어떻게 해야 할지 알지 못한다. 모든 사람들이 다른 사람들이 그것을 한다고 생각하기 때문에 모든 사람들이 그것을 한다고 주장한다. — 댄 애리리리
이 인용문은 매우 적절하다.내가 아는 많은 주니어 데이터 과학자들(이것은 나를 포함한다)은 데이터 과학이 사업에 큰 영향을 미치는 멋진 새로운 머신러닝 알고리즘으로 복잡한 문제를 해결하는 것이 전부였기 때문에 데이터 과학에 들어가고 싶어했다.이것은 우리가 하고 있는 일이 전에 했던 그 어떤 일보다 더 중요하다고 느낄 수 있는 기회였다.하지만, 종종 그렇지 않다.
내 생각에, 기대치가 현실과 일치하지 않는 것은 많은 데이터 과학자들이 떠나는 궁극적인 이유다.여기에는 여러 가지 이유가 있고 내가 전체 목록을 만들 수는 없지만 이 게시물은 본질적으로 내가 마주친 몇 가지 이유들의 목록이다.
회사마다 다 달라서 다 말할 수는 없지만, AI에서 가치를 얻기 위해 적절한 인프라가 갖춰지지 않은 데이터 과학자를 고용하는 기업이 많다.이는 AI의 콜드 스타트(Cold Start) 문제에 한몫하고 있다.이 두 회사가 후배를 고용하기 전에 선후배/경험이 있는 데이터 실무자들을 고용하지 않는다는 사실과 결합하면, 이제 여러분은 양 당사자에게 환멸과 불행의 관계에 대한 비법을 얻게 될 것이다.데이터 과학자는 통찰력을 높이기 위해 스마트 머신러닝 알고리즘을 작성했을 가능성이 높지만 첫 번째 업무는 데이터 인프라를 정리하거나 분석 보고서를 작성하는 것이기 때문에 이를 수행할 수 없다.반면 회사 측은 매일 이사회에서 내놓을 수 있는 차트만 원했다.그러면 회사는 가치가 충분히 빨리 추진되는 것을 보지 못하기 때문에 좌절하게 되고, 이 모든 것이 데이터 과학자의 역할에서 불행해지는 결과를 초래하게 된다.
로버트 장
그의 블로그 포스트에서 후배 데이터 과학자들에게 다음과 같이 조언하는 통찰력 있는 말을 했다.
우리의 열망이 우리가 처해 있는 환경의 중요한 경로와 얼마나 잘 일치하는지 평가하는 것이 중요하다.중요한 경로가 귀사에 가장 적합한 프로젝트, 팀 및 회사를 찾으십시오.
이것은 고용주와 데이터 과학자의 양방향 관계를 강조한다.회사가 제자리에 있지 않거나 데이터 과학자의 목표와 일치하는 목표를 가지고 있다면 데이터 과학자가 다른 것을 찾는 것은 시간 문제일 것이다.
관심 있는 분들을 위해서.
삼손후
위시(Wish)에서 분석팀이 어떻게 구축되었는지에 대한 환상적인 시리즈가 있는데, 그 결과 나도 매우 통찰력이 있다는 것을 알게 되었다.
데이터 과학자들이 환멸을 느끼는 또 다른 이유는 내가 학계에 환멸을 느낀 이유와 비슷한 것이다.회사 내에서뿐만 아니라 모든 곳에 있는 사람들에게 큰 영향을 미칠 수 있을 것이라고 믿었다.현실적으로 회사의 핵심 사업이 머신러닝(내 이전 고용주가 미디어 출판사)이 아니라면, 당신이 하는 데이터 과학은 작은 증분 이득만 제공할 가능성이 높다.이것들은 매우 중요한 것으로 추가될 수도 있고 당신은 운이 좋아서 금광 프로젝트에 참여하게 될 수도 있지만 이것은 덜 흔하다.
정치 문제는 이미 그것에만 전념하는 기발한 기사를 가지고 있다.데이터 과학에서 가장 어려운 것: 정치와 나는 당신이 그것을 읽기를 촉구한다.그 글의 처음 몇 문장은 내가 하고 싶은 말을 거의 요약해 놓은 것이다.
내가 지원 벡터 머신을 공부하기 위해 아침 6시에 일어났을 때, 나는 생각했다: "이것은 정말 어렵다!하지만, 이봐, 적어도 나는 미래의 고용주를 위해 매우 가치 있는 사람이 될 거야!"만약 내가 DeLoran을 얻을 수 있다면, 나는 시간을 거슬러 가서 스스로 "Bulls**t!"라고 부를 것이다.
만약 여러분이 많은 기계 학습 알고리즘을 알면 가장 가치 있는 데이터 과학자가 될 것이라고 진지하게 생각한다면, 위의 제 첫 번째 요점으로 돌아가 보십시오: 기대는 현실과 일치하지 않는다는 겁니다.
진실은 가장 영향력이 큰 사람들은 당신을 잘 인식해야 한다는 것이다.그것은 당신이 적절한 시기에 적절한 사람들에게 줄 데이터베이스로부터 숫자를 얻는 것과 같은 임시 작업을 끊임없이 해야 한다는 것을 의미할 수도 있고, 적절한 사람들이 올바른 인식을 갖도록 간단한 프로젝트를 해야 한다는 것을 의미한다.나는 전에 살던 곳에서 이 일을 많이 해야 했다.답답함을 느낄 수 있는 만큼, 그것은 그 일에 꼭 필요한 부분이었다.
올바른 사람들의 비위를 맞추기 위해 어떤 일을 하는 것으로부터, 이 모든 영향력을 가진 아주 똑같은 사람들은 종종 "데이터 과학자"가 무엇을 의미하는지 이해하지 못한다.즉, 분석 전문가뿐만 아니라 보고 전문가도 되고 데이터베이스 전문가도 된다는 것을 잊지 말자.
당신의 기술에 대해 너무 많은 추측을 하는 것은 비기술적인 임원들만이 아니다.다른 기술 동료들은 당신이 데이터와 관련된 모든 것을 알고 있다고 가정한다.Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP, 기계 학습(그리고 생각할 수 있는 다른 모든 데이터)을 살펴보십시오. 이 모든 정보가 적힌 작업 사양이 보이면 BTW를 잘 살펴보십시오.데이터 전략에 대해 전혀 모르는 회사의 취업 스펙 냄새가 나고, 어떤 데이터 직원을 고용하면 모든 데이터 문제를 해결할 수 있다고 생각하기 때문에 누구를 고용할 것이다.
하지만 거기서 멈추지 않는다.이 모든 것을 알고 있고 모든 데이터에 액세스할 수 있기 때문에… 글쎄, 5분 전에 관련자의 받은 편지함에 도착했어야 하는데.
여러분이 알고 있고 통제할 수 있는 것을 모두에게 말하려고 하는 것은 어려울 수 있다.누구든 실제로 여러분을 덜 생각하기 때문이 아니라, 산업 경험이 적은 후배 데이터 과학자로서 여러분은 사람들이 여러분을 덜 생각할까 봐 걱정하게 될 것이기 때문이다.이것은 상당히 어려운 상황이 될 수 있다.
성공적인 데이터 제품을 볼 때, 우리는 종종 지능적인 기능을 갖춘 전문가 설계의 사용자 인터페이스를 보게 되고, 가장 중요한 것은 최소한 관련 문제를 해결하기 위해 사용자들이 인식한 유용한 결과물을 보게 된다.이제 데이터 과학자가 머신러닝 알고리즘을 작성하고 실행하는 방법만을 배우는데 시간을 보낸다면, 그들은 귀중한 제품을 생산하는 프로젝트의 성공으로 이어지는 팀의 작은 부분(필요할 때)일 뿐이다.이것은 고립된 상태에서 일하는 데이터 과학 팀들이 가치를 제공하기 위해 고군분투할 것이라는 것을 의미한다!
그럼에도 불구하고, 많은 기업들은 여전히 그들만의 프로젝트를 제안하고 문제를 해결하기 위해 코드를 작성하는 데이터 과학 팀을 가지고 있다.경우에 따라서는 이것으로 충분할 수도 있다.예를 들어 분기당 1회 생산되는 정적 스프레드시트만 있으면 어느 정도의 가치를 제공할 수 있다.한편, 맞춤형 웹사이트 구축 제품에서 지적 제안을 최적화하는 것이 목표라면, 이것은 대다수의 데이터 과학자들에게 기대되어서는 안 되는 많은 다른 기술들을 포함할 것이다(이것은 오직 진정한 데이터 과학 유니콘만이 해결할 수 있는 진정한 데이터 과학은 유니콘뿐입니다.따라서 고립된 데이터 과학 팀에 의해 프로젝트가 진행되면 실패할 가능성이 가장 높다(또는 대기업에서 협업 프로젝트를 위해 고립된 팀을 조직하는 것이 쉽지 않기 때문에 매우 오랜 시간이 소요됨).
따라서 업계에서 효과적인 데이터 과학자가 되기 위해서는 카글 대회에서 좋은 성적을 내고 온라인 강좌를 이수하는 것만으로는 충분하지 않다.불행하게도 (어느 쪽으로 보느냐에 따라) 사업에서 위계질서와 정치가 어떻게 작용하는지 이해하는 것이 포함된다.자신의 핵심 진로에 부합하는 기업을 찾는 것이 자신의 요구를 충족시킬 데이터 과학 일자리를 찾을 때 핵심 목표가 되어야 한다.그러나 데이터 과학 역할에서 무엇을 기대할 것인지에 대한 기대치를 여전히 재조정할 필요가 있을 수 있다.
데이터 과학자의 지망생들이 자신의 진로에 대해 잘 알고 있는 결정을 내리도록 돕기 위해 건설적인 논의가 필요하므로 추가적인 의견, 질문 또는 반대의견이 있는 사람이 있다면 얼마든지 의견을 내주십시오.
내가 너를 그 일을 미루지 않았기를 바란다.
읽어줘서 고마워 :)
링크텍스트
[출처: Jonny Brooks-Bartlett, Here’s why so many data scientists are leaving their jobs, Mar 29, 2018]