책을 열심히 읽었으니 정리해보자!
데이터과학을 어렵고 전문적인 분야라고 생각했었던 내 시각을 바꿔준 책이다
데이터가 많다고 무조건 좋은 것도 아니고 수학적인 내용을 많이 사용하기 보다는
기본적인 분포를 잘 체크하는게 더 중요하다는 생각이 들었다
분야에 관계없이 어떠한 개인과 조직의 의사결정에 데이터가 사용되기 때문이다
① 검색 및 추천 엔진
ex. 구글, 페이스북
② IoT 디바이스 증가로 데이터량 급증
③ 웨어러블 기술로 개인의 활동 데이터 수집 및 분석 가능
ex. 애플워치
데이터화는 피할 수 없는 흐름이다!
데이터과학이라고 해서 무조건 어려운 툴만 사용하는 것은 아니다
데이터량에 따라 간단한 도구롤도 충분히 분석할 수 있다
아래는 주로 테이블 기반 데이터 처리에 적합한 도구이다
① 처리용량과 속도
잊지 말자! 처리용량과 속도는 반비례!!
② 지원하는 데이터 형과 프로그래밍 환경
③ 통계 및 기계학습 기능, 시각화 기능
④ 간단한 도구로 시작하여 필요에 따라 복잡한 도구로 옮기자
① 검색이나 추천 서비스를 개발하는 경우
데이터량이 서비스 품질에 영향을 주기 때문에 데이터 확보가 중요하다
ex. 구글-페이지 랭크
② 원본 데이터 자체가 큰 경우
이건 뭐 어쩔 수 없지...^^
ex. 천문학, 생물학 데이터
① 비싸고 느리다
저장공간이 많이 필요하고 메모리 사용량도 많다는 것
② 복잡하고 어렵다
데이터가 복잡하면 통계 기법 적용 또한 어렵다
① 데이터 크기 줄이기
필요한 속성/행 골라내기
이때, 데이터의 완전성과 정확성을 해치지 않도록 주의해야 한다
ex. 그룹화(aggregation), random sampling
② 스몰데이터로 시작하기
데이터를 모으는데 집중하지 말고 문제해결에 초점을 맞추자