데이터 사이언티스트란
명확한 정의는 없으니, 스스로를 잘 브랜딩 하자.
특성 기술을 할 줄 아는 사람으로 인지되는 걸 지양하자. 요새는 너무 많음.
스토리가 필요하다. 과거의 직무.
기승전결 중 기
와 결
이 중요. 어떤 데이터를 분석했는지는 필요 없음.
어떤 문제를 가졌고, 어떤 문제를 풀었고 어떤 결과를 만들어냈는가가 중요.
DS는 예측
을 한다.
과거의 데이터에 기초해서 예측
을 한다.
비슷한 데이터셋을 찾아서 했는데 진짜 없으면 상상
한다.
상상
= 가정
을 구체화하는 것이 모델링
모델링
은 세계관을 만드는 과정.
그 모델링
에는 등장인물과(변수), 규칙(알고리즘)가 필요.
근데 정규분포를 따른다는 근본 가정
이 어차피 틀렸으니까, 얼마나 덜 틀리냐가 더 중요. 맞힌다기 보다 가까워지는 과정.
모든 재료를 다 넣는다고 맛있지 않은 것처럼, 변수가 많으면 모형의 설명력은 높아지지만 우리가 얻을 수 있는 인사이트는 감소. 보통 10개 미만이면 충분.
세상에는 white box(decision tree)와 black box(random forest)가 존재.
white box 모델은 해석
이 중요. black box 모델은 성능
이 중요.
최근 black box 모델을 해석하고 싶어하는 경향이 강해짐. -> XAI(설명가능한 인공지능)
XAI는 모델에게 질문을 해서 '어떤 변수가 제일 중요해?' 등, 모델로부터 얻은 답으로 해석
을 하는 것.
데이터 사이언티스트
는 Analytics
ML엔지니어
는 Operation
데이터 사이언티스트
는 극단적으로 컨셉카 만드는 사람들. 데이터 엔지니어
는 엔진 만드는 사람들. 둘 다 잘 하면 유니콘🦄
Analytics
에서 제일 중요한 건 reporting랑 visualizing reporting에서는 알고리즘/통계/ML 이런거 NO 필요. 아무도 관심 없음.
대시보드는 지양하고 한 판에 그려라. 대시보드는 모니터링 할 때만 씀.
report에 인사이트가 부족하면? 드릴 다운
= 데이터를 파본다. 우리가 받은 데이터는 평균 데이터가 많으니까 다시 원본으로 파고 들어간다.
다차원분석이란? 여러 테이블을 한 번에 합쳐서 분석. 원래는 중복이 많아지고 느려지니까 안 썼는데 이젠 빅데이터 시대라 데이터가 워낙 중요하니까 다 때려박고 모든 걸 통합해서 본다. 대신 속도는 겁나 느려짐.
설명은 어떻게 해야할까? 설명은 무조건 인간적
인 언어로. 쉬운 말로 안 나온다는 건 잘 모르니까
스토리
life sycle, 기승전결 등높음
QnA
요즘
데이터를 찾는 게 어려움. 그래서 어떻게 요즘
데이터를 확보하는지가 관건. 데이터 파이프라인
이 주목을 받고 있음. 기타 질문 사항
정리 감사합니다~!