📌1장. 데이터과학 입문
데이터 활용 사례 - 1
마크 드랭숄트 (Mark Dransholt: 워싱턴 대학 구강학과 교수)
- 철인 3종 경기를 즐기는 건강한 체질
- 중년에 들어 비만, 높은 콜레스테롤 수치, 불규칙한 - 심장 박동, 가벼운 언어 장애
- 2000년 초 결혼 후 16kg 체중 증가
- 규칙적인 관리로 체중 감소
- 매일 몸무게와 체지방 측정과 동시에 식생활 개선
- 10개월동안 12kg 감량 성공
- 2008년 간헐적인 심장의 불규칙한 박동과 경미한 심장 발작
- 심장 발작이 올 때마다 직전의 일을 기록
- 격렬한 운동이나 카페인 섭취 연관성 느껴
- 주치의는 이를 바탕으로 큰 수술하지 않고 증상 개선
- 2013년 뇌에 안개가 낀 듯 -> 기억력 감퇴
- 의사와 상담했지만 원인 발견하지 못함
- 직접 해결책을 찾으려고 노력
- 인지능력과 관련된 식습관, 체중, 콜레스테롤 수치 등의 변수를 매일 기록
- 식단 조절 및 콜레스테롤 수치를 낮추기 위해 스태틴 약물 복용 -> 꾸준한 관찰 -> 인지 능력 향상
데이터 활용 사례 – 2
사망률을 개선한 나이팅게일 – EBS MATH

The legend reads: The Areas of the blue, red, & black wedges are each measured from the centre as the common vertex. The blue wedges measured from the centre of the circle represent area for area the deaths from Preventable or Mitigable Zymotic diseases, the red wedges measured from the centre the deaths from wounds, & the black wedges measured from the centre the deaths from all other causes. The black line across the red triangle in Nov.
-
파란색 부분은 예방 가능하거나 완화시킬 수 있는 질병으로 인한 사망
-
빨간색 부분은 부상으로 인한 사망
-
까만색 부분은 기타 이유로 사망
-
19세기 말 크림전쟁 당시 후방 병원에서 많은 환자 사망
-
위생상태가 개선되면서 후방에서의 사망률을 1/10로
데이터 활용 사례 – 3
콜레라를 이긴 존 스노우
- 19세기 유럽 전역을 공포에 떨게 했던 콜레라의 원인을 밝혀냄
- 지도에 표시함으로써 식수원의 오염이 원인임을 밝혀냄

📌2장. 데이터과학에 유용한 도구
데이터 과학을 위한 도구

📝도구 선택 기준

📌1. 처리 용량 및 속도
📌2. 지원 데이터 형 및 프로그래밍 환경

📌3. 데이터 분석 및 시각화 기능

📌4. 문제 특성에 맞는 도구 선택(시험문제)

📌5. 문제 해결 단계에 맞는 도구 선택

💻엑셀로 시작하는 데이터 과학
- R과 파이썬의 장점
- 고급 프로그래밍 언어(인터프리터 언어)
- 엑셀보다 큰 데이터 처리 가능
- 엑셀보다 강력한 기능
- 코드를 이용한 데이터 처리는 재사용 가능
- R과 파이썬의 단점
- 프로그래밍 경험 전제
- 프로그래밍에 익숙하지 않으면 부담
- 엑셀
- 원본 데이터를 보면서 작업
- 데이터 중복/오류 검증
- 필터링/피벗테이블 기능
- 기본적인 통계 기능
- 결과물 공유 편리
언제부터 R을 사용할까?
