혼자 공부하는 데이터 분석 with 파이썬 01-1 데이터 분석이란

손지호·2024년 1월 6일
0
post-custom-banner

데이터 분석과 데이터 과학

데이터 분석
위키피디아에서는 '유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정'으로 정의. 데이터 분석은 다양한 접근 방법과 형태로 여러 비즈니스와 과학 분야에서 사용. 현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용.
데이터 분석과 함께 자주 언급되는 용어는 데이터 과학(data science) 이다. 데이터 분석과 데이터 과학은 동일하게 취급하지만, 데이터 과학은 통계학(statistics), 데이터 분석, 머신러닝(machine learning), 데이터 마이닝(data mining) 등을 아우르는 큰 개념으로 볼 수 있다.

데이터 분석은 올바른 의사 결정을 돕기 위한 통찰(insight) 을 제공하는데 초점을 맞추고,
데이터 과학은 한 걸음 더 나아가 문제 해결을 위한 최선의 솔루션(solution) 을 만드는데 초점을 맞춘다.

데이터 분석 역시 통계학과 많은 관련이 있다! 통계적 관점에서 보면 데이터 분석을 크게 세 가지로 나눌 수 있다.
기술통계(descrptive statistics) : 관측이나 실험을 통해 수집한 데이터를 정랴화하거나 요약하는 기법. 예를 들면 평균을 계산하거나, 최솟값, 최댓값을 찾는다.
탐색적 데이터 분석 : 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법. 여기서도 다양한 그래프 사용해 데이터 살펴보자!
가설검정 : 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법.


데이터 분석가

프로그래밍 기술을 갖추고 있고 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람. (물론 해당 비즈니스 문제에 대한 깊은 이해는 필수!!!)
데이터 분석가는 프로그래밍, 수학·통계, 도메인 지식(비즈니스 문제에 대한 전문 지식)이 모두 필요!

수학·통계 없이 프로그래밍 기술과 도메인 지식만으로 문제 해결 방안을 내놓았다면 검증되지 않은 해결책이므로 위험하다. 도메인 지식 없이 수학·통계 지식만 사용한다면 비즈니스 목표에 맞지 않는 결과를 만들 수 있다. 마지막으로 프로그래밍 없이 도메인 지식을 수학·통계에 적용한다면 '전통적인 분석'만 수행하게 된다.

데이터 분석가의 작업 과정은 데이터 수집, 데이터 처리, 데이터 정제, 데이터 분석, 모델링까리 포함된다. 좁은 의미로는 기술통계, 탐색적 데이터 분석, 가설검정 등을 넓은 의미로는 데이터 수집부터 모델링까지를 말한다.


데이터 분석을 위한 도구

데이터 분석을 도와주는 도구란 어떤 종류의 소프트웨어를 말한다. 데이터 분석에 널리 사용하는 프로그래밍 언어가 무엇인지 알아보자!


프로그래밍 언어 : 파이썬과 R

데이터 분석에 많이 사용하는 프로그래밍 언어는 파이썬과 R. 데이터가 데이터베이스 형태로 있다면 SQL을 사용할 수 있다. 다만 SQL은 데이터베이스를 다루기 위해 고안된 언어이므로 시각화나 통계적 분석은 어렵다.

파이썬 필수 패키기

패키지(package) : 파이썬에서 유용한 기능이 구현된 파일을 묶어서 유통시키는 단위. 다른 언어에서는 라이브러리(library)라고도 부른다. 파이썬 패키지는 PyPi에서 찾을 수 있고 R은 CRAN에서 찾을 수 있음.

  • 넘파이
    numerical python의 줄임말로 고성능 과학 계산과 다차원 배열을 위한 파이썬 패키지. 대부분의 파이썬 데이터 분석 패키지는 데이터를 다룰 때 넘파이 배열을 사용한다. 넘파이 기능을 잘 배워 두면 다른 패키지를 사용하는데 큰 도움 받을 수 있다.

  • 판다스
    파이썬 데이터 분석을 위한 전문 패키지. 판다스는 넘파이 배열과 다르게 마이크로소프트 엑셀의 시트처럼 숫자와 문자 섞어서 표 형태로 저장할 수 있는 데이터프레임을 사용한다. 넘파이가 과학 계산에 맞춰져 있다면, 판다스는 편리한 데이터 처리와 분석 작업을 위해 많은 기능을 제공한다. 또 다양하고 미려한 그래프 출력 기능도 갖추고 있다. 파이썬 데이터 분석에서 기본 자료 구조로 넘파이와 판다스를 자주 사용한다.

  • 맷플롯립
    파이썬 데이터 시각화를 위한 기본 패키지. 정적 혹은 동적인 그래프를 그릴 수 있고, 고품질의 매우 다양한 그래프를 제공한다. 또한 파이썬의 다른 과학 패키지와 호환성이 높다. 파이썬에서는 맷플롯립 외에도 시본(seaborn), 보케(bokeh) 같은 시각화 패키지를 많이 사용한다.

  • 사이파이
    넘파이를 기반으로 구추된 수학과 과학 계산 전문 패키지. 미분, 적분, 확률, 선형대수, 최적화 등을 알고리즘으로 구현한다. 이 책에서도 사이파이를 사용해 다양한 기본 통계 지식을 배운다.

  • 사이킷런
    파이썬의 독보적인 머신러닝 패키지로 넘파이와 사이파이에 크게 의존한다. 파이썬뿐만 아니라 전체 데이터 과학 분야에서 가장 널리 사용하는 머신러닝 패키지라고 해도 과언이 아니다.


+좀 더 알아보기

데이터 마이닝과 머신러닝

데이터 마이닝 : 데이터에서 패턴 혹은 지식을 추출하는 작업. 머신러닝, 통계학, 데이터 베이스 시스템과 관련이 많다. 이러한 패턴과 지식은 사람이 의사 결정을 내리기 위해 활용된다.

머신러닝 : 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술. 딥러닝과 머신러닝 알고리즘의 한 종류이다.
데이터 마이닝과 다르게 규칙이나 패턴을 사용하는 주체가 사람이 아닌 컴퓨터이다. 또한 데이터 마이닝 알고리즘은 비교적 규칙을 만드는 과정이 투명한 데 비해 머신러닝 알고리즘은 마치 블랙박스처럼 결정이 내려진 이유를 알기 어려운 경우가 많다.
머신러닝으로 학습한 소프트웨어 객체를 모델이라고 부른다. 데이터 과학자가 하는 일은 데이터를 분석하고 이런 모델을 만드는 것.


정리

  • 데이터 분석은 데이터를 수집, 처리, 정제, 분석, 모델링하여 의사 결정을 내리는 데 도움을 주는 작업. 통계학과 머신러닝의 기술을 사용하고 비즈니스 문제를 해결하기 위해 도메인 지식이 필요하다.
  • 데이터 과학은 데이터 분석, 머신러닝을 아우르는 개념. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는 데 많은 비중을 둔다.
  • 파이썬은 데이터 분석, 데이터 과학, 머신러닝 작업에 사용할 수 있는 인기 있는 프로그래밍 언어. 넘파이, 판다스, 맷플롯립 등에 데이터 분석에 필요한 다양한 패키지를 손쉽게 사용할 수 있음.

학습에 꼭 필요한 핵심 패키지

profile
초보 중의 초보. 열심히 하고자 하는 햄스터!
post-custom-banner

0개의 댓글