데이터 사이언스란?

조유정·2023년 7월 4일

데이터 사이언스가치를 더할 수 있는 일이 무엇인지 찾아내고 데이터를 이용해서 그 문제를 해결하는 것이다.

첫째, 데이터 사이언스의 핵심은 인공지능, 딥러닝이다?

데이터 사이언스를 위해서는 피라미드 아래부터 차근차근 단계를 밟아야 한다.
대부분의 기업들은 2~6단계만 신경쓰는 것만으로도 비교적 적은 노력으로 많은 가치를 얻을 수 있다.

물론 인공지능, 딥러닝이 중요하다.
그러나 무작정 단계를 뛰어넘지 말고 기본기를 잘 다지자.

둘째, 데이터 사이언티스트는 컴퓨터, 수학만 하는 사람일까?

데이터 사이언스란 가치를 더할 수 있는 일이 무엇인지 찾아내고 데이터를 이용해서 그 문제를 해결하는 것이다.
어떤 분야에 어떤 문제가 있는지 파악할 줄 알아야 하며, 그 문제를 창의적으로 해결할 수 있어야 한다.

소통 역시 필요한 능력이다.
의미있는 데이터를 모으기 위해서 엔지니어들과 소통하여야 한다.
무언가를 발견하였다면 마케팅팀 혹은 경영팀에게 발표도 하여야 한다.

컴퓨터, 수학이 중요한 능력이긴 하지만 이게 다가 아니라는 소리이다.
더 나은 데이터 사이언티스트가 되기 위해서는 창의력, 소통능력도 길러야 한다.

데이터 사이언스의 양대산맥: Python vs R

  • R

    • 통계와 시각화를 위해 만들어진 언어
  • Python

    • 다양한 분야에 사용될 수 있는 언어

Python은 다양한 분야에서 사용될 수 있는 언어로 개발되었기 때문에, 데이터 사이언스를 공부하다가 다른 분야로 넘어갈 수 있다.
Python은 데이터 관련된 일을 다른 분야와 접목시키기에 유리하다.

통계학자들이 통계를 위해서 R을 만들었기 때문에, 배우기 까다롭다.
그에 비해 Python은 비교적 간단하고 이해하기 쉬운 언어이다.

Python에 Numpy, Pandas, TensorFlow를 사용할 수 있게 되면서 인기가 많아졌다.

난 Python 쓸랭 ㅎㅎ

데이터 사이언스의 단계

  1. 문제 정의하기
  2. 데이터 모으기
  3. 데이터 다듬기
  4. 데이터 분석하기
  5. 데이터 시각화 및 커뮤니케이션
  • 문제 정의하기 : 해결하고자 하는 문제를 정의한다.

    • 목표 설정
    • 기간 설정
    • 평가 방법 설정
    • 필요한 데이터 설정
  • 데이터 모으기: 필요한 데이터를 모을 수 있는 방법을 찾는다.

    • 웹 크롤링
    • 자료 모으기
    • 파일 읽고 쓰기
  • 데이터 다듬기: 데이터의 퀄리티를 높여서 의미있는 분석이 가능하게끔 한다.

    • 데이터 관찰하기
    • 데이터 오류 제거
    • 데이터 정리하기
  • 데이터 분석하기: 준비된 데이터로부터 의미를 찾는다.

    • 데이터 파악하기
    • 데이터 변형하기
    • 통계 분석
    • 인사이트 발견
    • 의미 도출
  • 데이터 시각화 및 커뮤니케이션: 분석 결과를 다른 사람들에게 전달한다.

    • 다양한 시각화
    • 커뮤니케이션
    • 리포트

    코드잇 <데이터 사이언스 시작하기> 강의를 정리한 글입니다.

profile
나는 아직 멍청하다

0개의 댓글