데이터과학이란

Yoon1013·2023년 3월 22일
0

헬로 데이터과학

목록 보기
1/4


책을 열심히 읽었으니 정리해보자!

데이터과학을 어렵고 전문적인 분야라고 생각했었던 내 시각을 바꿔준 책이다
데이터가 많다고 무조건 좋은 것도 아니고 수학적인 내용을 많이 사용하기 보다는
기본적인 분포를 잘 체크하는게 더 중요하다는 생각이 들었다

❓ 데이터 과학이란 무엇인가?

  • 가설을 세우고 검정하여 의미있는 현상을 뽑아내는 과정 전체를 아우르는 말
  • 현상을 이해하고 효과적인 결정을 내리도록 도와주는 수단

🤷‍♀️ 데이터과학은 왜 필요한가?

분야에 관계없이 어떠한 개인과 조직의 의사결정에 데이터가 사용되기 때문이다

😉 예를 들어

검색 및 추천 엔진
   ex. 구글, 페이스북
IoT 디바이스 증가로 데이터량 급증
웨어러블 기술로 개인의 활동 데이터 수집 및 분석 가능
   ex. 애플워치

➡그래서 결론은?

데이터화는 피할 수 없는 흐름이다!

🛠 데이터과학에 사용하는 도구

🔨 사용할 수 있는 도구

데이터과학이라고 해서 무조건 어려운 툴만 사용하는 것은 아니다
데이터량에 따라 간단한 도구롤도 충분히 분석할 수 있다
아래는 주로 테이블 기반 데이터 처리에 적합한 도구이다

  • 스프레드시트(엑셀)
  • R, Matlab
  • SQL, 하이브(HiveSQL)
  • 파이썬

🤷‍♂️ 사용할 도구를 어떻게 정하나?

처리용량과 속도
   잊지 말자! 처리용량과 속도는 반비례!!
② 지원하는 데이터 형과 프로그래밍 환경
③ 통계 및 기계학습 기능, 시각화 기능
④ 간단한 도구로 시작하여 필요에 따라 복잡한 도구로 옮기자

❔ 그럼 무조건 큰 데이터가 좋은 데이터인가?

1) 빅데이터가 필요한 경우

검색이나 추천 서비스를 개발하는 경우
   데이터량이 서비스 품질에 영향을 주기 때문에 데이터 확보가 중요하다
   ex. 구글-페이지 랭크
원본 데이터 자체가 큰 경우
   이건 뭐 어쩔 수 없지...^^
   ex. 천문학, 생물학 데이터

2) 데이터가 크다는 것...!

비싸고 느리다
   저장공간이 많이 필요하고 메모리 사용량도 많다는 것
복잡하고 어렵다
   데이터가 복잡하면 통계 기법 적용 또한 어렵다

💢그럼 어떡함?

데이터 크기 줄이기
   필요한 속성/행 골라내기
   이때, 데이터의 완전성과 정확성을 해치지 않도록 주의해야 한다
   ex. 그룹화(aggregation), random sampling
스몰데이터로 시작하기
데이터를 모으는데 집중하지 말고 문제해결에 초점을 맞추자

profile
Data Science & AI

0개의 댓글