[혼공학습단 9기] 혼자 공부하는 데이터분석 with 파이썬 1주차 (1) - 시작은 개념부터!

coshibaken413·2023년 1월 3일
0

혼공학습단 9기

목록 보기
1/20

CHAPTER 1 - 데이터 분석을 시작하며

1-1. 데이터 분석이란

data science and data analysis

데이터과학(data science)

데이터 분석과 머신러닝을 아우르는 개념이다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는 데 많은 비중을 둔다.

  • 머신러닝
  • 통계학
  • 데이터 마이닝
  • 데이터 분석

‘데이터과학은 데이터 세계와 비즈니스 세계를 잇는 다리이다.’

데이터분석(data analysis)

데이터를 수집, 처리, 정제, 분석. 모델링하여 의사결정을 내리는 데 도움을 주는 작업이다.

  • 기술 통계(descriptive statistics): 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법이다. 예를 들어 평균을 계산하거나 최댓값, 최솟값을 찾는다.
  • 탐색적 데이터 분석(EDA): 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법이다.
  • 가설검정(hypothesis testing): 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 ‘통계’ 방법이다.

데이터분석가(data analyst)

프로그래밍 기술을 갖추고 있고, 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람

데이터분석가는 프로그래밍, 수학 및 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식)이 모두 필요하다.

  • Denger Zone: 수학과 통계 없이 프로그래밍 기술과 도메인 지식만으로 문제 해결 방안을 내놓았다면 검증되지 않은 위험한 해결책이다.
  • Machine Learning: 메인 지식 없이 프로그래밍과 수학 및 통계 지식만 사용한다면 비즈니스 목표에 맞지 않는 결과를 만들 수도 있다.
  • Traditional Research: 프로그래밍 없이 도메인 지식을 수학 및 통계에 적용한다면 ‘전통적인 분석’ 만 수행하는 것이다.

데이터 분석가의 작업 과정
넓은 의미의 데이터 분석

  • 데이터 수집, 데이터 처리, 데이터 정제, 모델링

좁은 의미의 데이터 분석

  • 기술통계, 탐색적 데이터 분석, 가설검정

데이터 분석을 위한 도구

교재에서 사용하는 프로그래밍 언어는 파이썬, 환경은 구글 코랩을 사용한다.

데이터 분석에 사용되는 파이썬 패키지로는 넘파이, 판다스, 맷플롭립, 사이파이, 사이킷런이 있다.

  • 넘파이(Numpy): 과학 계산과 배열에 필요한 수학 패키지
  • 판다스(pandas): 숫자와 문자를 섞어 표처럼 사용할 수 있는 데이터프레임을 제공
  • 맷플롯립(matplotlib): 동적, 정적 그래프를 만들 수 있는 시각화 패키지
  • 사이파이(SciPy): 수학과 과학 계산 전문 패키지. 미적분, 선형대수 등을 포함한다.
  • 사이킷런(scikit-learn): 파이썬에서 사용할 수 있는 대표적인 머신러닝 패키지
profile
프론트엔드 기술면접 공부중

0개의 댓글