데이터 사이언스란 가치를 더할 수 있는 일이 무엇인지 찾아내고 데이터를 이용해서 그 문제를 해결하는 것이다.

데이터 사이언스를 위해서는 피라미드 아래부터 차근차근 단계를 밟아야 한다.
대부분의 기업들은 2~6단계만 신경쓰는 것만으로도 비교적 적은 노력으로 많은 가치를 얻을 수 있다.
물론 인공지능, 딥러닝이 중요하다.
그러나 무작정 단계를 뛰어넘지 말고 기본기를 잘 다지자.
데이터 사이언스란 가치를 더할 수 있는 일이 무엇인지 찾아내고 데이터를 이용해서 그 문제를 해결하는 것이다.
어떤 분야에 어떤 문제가 있는지 파악할 줄 알아야 하며, 그 문제를 창의적으로 해결할 수 있어야 한다.
소통 역시 필요한 능력이다.
의미있는 데이터를 모으기 위해서 엔지니어들과 소통하여야 한다.
무언가를 발견하였다면 마케팅팀 혹은 경영팀에게 발표도 하여야 한다.
컴퓨터, 수학이 중요한 능력이긴 하지만 이게 다가 아니라는 소리이다.
더 나은 데이터 사이언티스트가 되기 위해서는 창의력, 소통능력도 길러야 한다.
R
Python
Python은 다양한 분야에서 사용될 수 있는 언어로 개발되었기 때문에, 데이터 사이언스를 공부하다가 다른 분야로 넘어갈 수 있다.
Python은 데이터 관련된 일을 다른 분야와 접목시키기에 유리하다.
통계학자들이 통계를 위해서 R을 만들었기 때문에, 배우기 까다롭다.
그에 비해 Python은 비교적 간단하고 이해하기 쉬운 언어이다.
Python에 Numpy, Pandas, TensorFlow를 사용할 수 있게 되면서 인기가 많아졌다.
난 Python 쓸랭 ㅎㅎ
- 문제 정의하기
- 데이터 모으기
- 데이터 다듬기
- 데이터 분석하기
- 데이터 시각화 및 커뮤니케이션
문제 정의하기 : 해결하고자 하는 문제를 정의한다.
데이터 모으기: 필요한 데이터를 모을 수 있는 방법을 찾는다.
데이터 다듬기: 데이터의 퀄리티를 높여서 의미있는 분석이 가능하게끔 한다.
데이터 분석하기: 준비된 데이터로부터 의미를 찾는다.
데이터 시각화 및 커뮤니케이션: 분석 결과를 다른 사람들에게 전달한다.
코드잇 <데이터 사이언스 시작하기> 강의를 정리한 글입니다.