🧑💻 데이터과학자는 어떤 사람인가?
데이터를 통해 가치를 창조하는 방법을 찾아내고 이를 자신이 직접 혹은 다른 사람을 통해 실천에 옮기는 사람을 말한다
즉, 데이터를 통해 현상을 보고 이를 기반으로 문제를 해결하는 사람이다
📚 데이터로 스토리 텔링하기
데이터 과학자는 문제해결 과정에서 지속적으로 커뮤니케이션 해야 한다
예를 들어, 문제 정의 시 도메인 전문가와의 소통, 분석 후 구현 담당 엔지니어와의 소통, 프로젝트 완료 후 프로젝트 결과 보고 등 소통 능력이 요구된다
🟡 서론
분석을 시작하게 된 배경에 대해서 설명한다
- 문제 소개, 청중의 흥미 자극
- 구체적인 수치를 예시로 이용
🟢 본론
문제 해결 과정을 데이터 분석 프로세스에 맞춰서 요약하여 전달한다
1) 데이터 수집 및 가공
- 무슨 데이터인지 간략하게 소개
ex. 기본적인 통계값, 표본의 일부 등
- 어떤 경로로 수집했는지
데이터의 타당성과 신뢰성과 연결되므로 꼭 밝혀야함
- 어떻게 데이터를 가공했는지
2) 데이터 분석
- 수식과 전문용어가 아닌 직관적으로 설명
설명을 듣는 청중이 데이터분석 전문가가 아닌 경우가 더 많다!
- 물론 꼭 필요한 수식은 소개해야함
기호보다는 각 항의 의미를 전달할 수 있도록
ex. 자외선=1.3∗일사량+0.8∗대기중수증기량
3) 분석결과
- 표, 시각화 활용
- 신뢰구간, 가설검정 등으로 타당성 뒷받침
- 학습/평가 데이터 나누는 방법
- 모델의 매개변서 추정 방법
- 모델 평가 방법 등
🔵 결론
- 전체 내용 요약 및 방향 제시
- 프로젝트의 한계 밝히기
만능 모델인 것처럼 설명하면 오히려 신뢰성에 문제가 생길 수 있다!
🌟 '왜' 이렇게 했는지를 꼭 설명하자
- '왜' 이것을 문제로 삼았는가?
- '왜' 해당 데이터를 사용했는가?
- '왜' 이 분석 기법을 사용했는가?
👩🔬 나는 데이터과학자가 적합한 사람인가?
❓ 모호함을 즐길 수 있는가
- 주어진 데이터에서 노이즈를 제거해도 완벽한 결론에 도달하기 어렵다
- 주어진 문제에 대해 오랫동안 생각할 수 있어야한다
❓ 변화를 즐길 줄 아는가
- 새로운 분석기법, 방법, 툴을 끝없이 공부해야 한다
- 실시간적으로 발생하는 문제에 대응해야 한다
❓ 협업을 즐길 수 있는가
- 위에서도 말했지만 데이터 과학자는 끊임없는 커뮤니케이션을 해야한다